电商女装销量描述与分析案例-CDA数据分析师官网

电商女装销量描述与分析案例

2021-03-08

一、案例综述

案例编号：

102002

案例名称：

零售行业——电商女装销量描述与分析

作者姓名（或单位、或来源）：

朱江

案例所属行业：

F523 纺织、服装及日用品专门零售

案例所用软件：

Rstudio

案例包含知识点：

案例描述：

目前网络购物异常的火爆，发展迅猛，基于数据分析的精准营销需求也随之增加。目前网络购物的几个特点是：私人消费增长中网络消费占的比重越来越大；移动端购物占网络购物的比例越来越大。

目前服装行业的最大类目是女装行业，不难理解相比于男装女装更新速度快、受众广以及品类多样，而女装行业中销售额占比最高的5个子类依次是：连衣裙、T恤、衬衫、休闲裤及毛针织衫。

于是我们针对连衣裙零售业，从某线上购物网站获得月销售量不低于99笔的连衣裙商品信息，共有5880个商品，每个商品包含自身的一些属性、交易信息、商品所属店铺的信息以及评价信息。

通过这些商品信息，我们可以进一步分析畅销连衣裙有什么共性，即有什么样性质的服装会更容易畅销，销量跟什么因素相关。借此我们可以把握整个市场的宏观特征，发掘高销量服装共性，找到影响销量的显著因素，并且量化这些显著因素。从而指导卖家更合理有效的捕捉流行趋势、定位市场、合理管理库存以及更改营销策略。

数据文件说明：原始文件是从某线上购物网站获得的经过处理的99个csv文件，这些文件包含所有六千个左右商品的信息，包含16个特征，可以分为三大类：

1.无用特征：数据获取日期、获取时间、商品id、店铺名、平均价格、评论数、店铺半年内动态评分、累计评价汇总。

2.商品相关信息：商品名称、商品价格、产品描述、月销量。

3.店铺信息、店铺评分。

无用特征中有些是基本不含有有价值信息的特征如时间、id、店铺名、平均价格，有些是重复且难以抽取有用信息的特征例如店铺动态评分，有些是预测后才能产品推行后才能获得的数据例如评论数、累计评价汇总。由于我们的目的是在产品推行前给出合理的建议提高产品销量，这些产品推行后的信息要么无法改善要么很难量化，故而归为无用特征。

本案例包含如下知识点：

1.读取多个同格式的数据文件，并且合并

2.数据筛选，主要是字符变量的处理和关键信息提取

3.制作词云

4.根据关键词生成新数据

案例执行形式：

单人上机

二、案例知识点：

知识点1：

知识点名称：R读入多个数据文件并且合并

知识点所属工作角色：

数据导入

知识点背景：

使用R同时导入多个相同格式的csv文件，并且横向合并这些文件

知识点描述

与读入单个文件不同，读入多个文件需要先列出所有要读取的对象，然后采用apply函数族循环读取，再讲读取结果合并

知识点关键词：

R 读取多个文件合并正则表达式

知识点所用软件：

Rstudio

操作目的：

R读取多个csv文件并合并

知识点素材（包括数据）：

tmall1.csv，tmall2.csv，tmall3.csv，……，tmall98.csv

操作步骤：

1.启动Rstudio

2.将数据文件夹Text3拷贝至工作目录下，设置当前工作目录到Text3文件夹

3.清空当前全局环境中存储的所有变量，释放内存空间

4.列出工作目录下包含的所有文件的文件名，注意这里要通过正则表达式指定读取的文件名格式

5.通过apply函数族循环读取列出的所有文件名，并且放在一个列表中

6.将列表中所有的元素横向合并，注意这里使用到do.call函数

7.将读取的文件写入”total.csv”

操作结果：

存储在内存中的数据框如上图，并且得到包含所有数据的total.csv文件

将R代码文件保存为readdata.R以备后续使用。

知识点小结：

本案例巧妙的通过提取文件名并且运用apply函数族简单快读的读取了多个数据文件到一个列表中，并且在避免循环的前提下使用do.call合并了所有数据

知识点2：

知识点名称：数据筛选

知识点所属工作角色：

数据清洗

知识点背景：

1.对缺失值进行处理

2.从字符串中提取有用信息

3.根据之后描述性分析、探索性分析及建模需求，对数据进行合理的转化和处理，使得数据更具解释性

知识点描述

1.去除带缺失值的行

2.从字符串中提取有用信息

3.采用函数对变量进行计算生成新的变量。

知识点关键词：

缺失值数据清洗字符串处理

知识点所用软件：

Rstudio

操作目的：

1.处理缺失值

2.从字符串中提取有用信息

3.因子变量标签转换，生成新的因子变量

知识点素材（包括数据）：

total.csv

操作步骤:

1.启动Rstudio

2.读取数据total.csv

3.提取价格变量，提取销量变量中的数字，去除缺失值

4.去掉没有描述的商品，赋值给新的变量

5.分割产品描述，以回车和冒号分割

6.剔除非年龄信息

7.提取年龄

8.保存数据到csv文件

操作结果：

剔除了空元素在的行，通过字符变量处理生成了年龄变量

保存到新的数据文件

知识点小结：

一般从网站获取的数据都不够规整，如果获取大段的文字信息在一个观测中，字符处理就需要尽量全面的考虑所有情况，也要细致的核对结果。

包含大量字符的数据框写入csv文件时可能需要将所有数据统一转换为字符格式。

知识点3：

知识点名称：制作词云

知识点所属工作角色：

词云

知识点背景：

在处理一系列文本信息或者字符信息对应的词频分布时，词云这种描述方式显得非常直观易懂，能够清晰的分辨出前几个重要词以及次重要词

知识点描述

词云描述性分析

知识点关键词：

词云描述性分析

知识点所用软件：

Rstudio

操作目的：

删除非中文字符及关键词

制作词云

知识点素材（包括数据）：

totalold.csv

操作步骤:

1.读取文件，提取商品名称所在的向量

2.删除非中文字符

3.结巴分词，查看词频

4.去除无意义关键词

5.选择色系，字体，绘制词云

操作结果：

绘制词云得到词云图，从中找到关键标签，每次词云显示的效果不同，最好多做几次取标签，结果如下

提取六个关键标签：新款、修身、韩版、中长款、显瘦、印花。选择若干进行后续分析。

知识点小结：

词云分析一般先要对字符型变量进行清洗，分词，根据停用词词典去词，找到词频分布，然后根据词分布做词云图

知识点4：

知识点名称：提取关键词生成新数据

知识点所属工作角色：

数据清洗

知识点背景：

提取关键词生成新变量

知识点描述

数据清洗生成新变量

知识点关键词：

分词生成新变量

知识点所用软件：

Rstudio

操作目的：

提取关键词生成新变量

知识点素材（包括数据）：

totalold.csv

操作步骤:

1.读取数据

2.提取商品名称列，删去非中文字符，分词，使用分号隔开

3.在商品中提取关键词“韩版”，包含“韩版”的商品标记为1，其他为0，生成新变量“是否韩版”。对于其他关键词：“新款”、“显瘦”、“中长款”、“印花”、“修身”同理

4.提取销量中的数字，根据需要的变量生成新的数据框

5.将数据写入totalold.csv和keywords.csv

操作结果：

知识点小结：

通过数据清洗，提取关键词生成新变量的过程，可以生成规整清洗的新的数据表格，方便之后的描述和推断。

知识点5：

知识点名称：描述性分析

知识点所属工作角色：

描述性分析

知识点背景：

描述性分析的目标主要在于描述数据集的大致变化趋势和相关关系

知识点描述

描述性分析

知识点关键词：

描述性分析 ggplot2

知识点所用软件：

Rstudio

操作目的：

通过描述性分析分析销量的分布情况以及各销量对票房的影响

知识点素材（包括数据）：

totalold.csv

keywords.csv

total.csv

操作步骤:

1.读取数据

2.提取销量和价格，查看销量分布，去除不关心的小于100销量的产品，对销量重新分区，ggplot2绘图观察

可见月销量在100至150件之间的连衣裙占比34.8%，分布明显右偏，月销量高于250的商品数量分布相对比较平均

3.将价格这一连续变量离散化，使用ggplot2制图

4.绘制年龄和对数销售量的条件箱线图

其中：箱体宽度代表不同年龄层的商品数量比较；25-29周岁年龄群对应的商品数量居多(57.8%)，高销量商品也较多；青少年及老年消费者对应的商品数量较少，但是平均销量高，值得关注；各个年龄层之间的销售量没有明显差异。

5.观察是否显瘦和销量分别在全年龄段和25-29年龄段上的关系，分别做两个条件箱线图，并且放在一张图上

可见：“显瘦”特质在整体上对销量有一定的促进作用；25-29周岁年龄群的女性“显瘦”特质的促进作用较为显著

6.观察是否新款和销量分别在全年龄段、25-29年龄段上以及35-39年龄段上的关系，分别做三个条件箱线图，并且放在一张图上

其中，“新款”特质在整体上对销量有一定的促进作用，25-29周岁年龄群的女性更加偏好该特质，35-39周岁年龄群的女性对该特质无感甚至有轻微的负面反应。



7.观察是否中长款和销量分别在全年龄段、18-24年龄段上以及40-49年龄段上的关系，分别做三个条件箱线图，并且放在一张图上

可见，“中长款”特质对销量的促进作用相较之前明显更好些，18-24周岁的青年人群中尤为受欢迎，40-49周岁年龄群的女性对该特质仍有一定的好感但是特质影响明显小些

8.观察是否韩版和销量分别在全年龄段、18-24年龄段上以及35-39年龄段上的关系，分别做三个条件箱线图，并且放在一张图上

可见，“韩版”特质对销量有明显的正向影响，35-39周岁年龄群的女性尤为畅销，18-24周岁年龄群的女性对该特质无感。

9.通过上面对商品属性的特定特征描述性分析，可以得到如下几个小结：

i.月销量100-200笔的商品数量较多，且随着商品单价的上升有下降趋势

ii.各年龄层的平均销量差异并不明显，25-29周岁年龄层消费的商品数量较多

iii.从商品名称中提取关键标签，发现“显瘦”、“新款”、“中长款”、“韩版”特质整体对销量都有不同程度的积极作用。并且不同年龄层对销量的影响不同

10.读取原始数据total.csv，使用正则表达式提取地点（市）的关键词，并且只保留商家较多的市

11.构建地点和销量数据集，并且通过中位数调整地点数据，排序

12.绘制地点销量图

其中，武汉的商品是最少的(0.88%)，但是商品平均销量最高；杭州商品数量最多(24.4%)且平均销量较高，优势较明显；广州、深圳，尤其是上海商品数量较多但是平均销量却一般



13.观察开店时间对销量的影响，先提取数据，在生成新的年份向量，最后制图

14.观察物流、服务、描述评分与销量的箱线图，去除缺失值，将评分因子化，合并4.6以下的评分

可见，店铺各项评分均较大程度的集中在4.7或4.8；评分4.7的店铺平均销量最高；店铺评分低于4.7的商品数量较少且月销量较低

操作结果：

见操作步骤中每一部分的输出图形

小结：

1.武汉、东莞等少数城市虽然商品数量较少但是商品销量却居全国前列

2.杭州商品数量最多(24.4%)且平均销量较高，属于热点城市

3.店铺成立时间对销量不会产生明显的影响

4.高销量连衣裙所属的店铺评分集中在4.7和4.8，其中4.7的店铺平均销量最高，评分4.7以下的店铺商品销量较少（很难达到100以上），很难入选该数据集

知识点小结：

通过数据描述性分析过程可以很直观的得到一些基本的结论，这些结论能够很好的帮助我们发现数据之间的内在关系

知识点6：

知识点名称：用多元线性回归进行推断和预测分析

知识点所属工作角色：

多元回归分析

知识点背景：

1.使用多元线性回归进行推断和预测分析

2.得到系数并且进行初步的观察和解释

3.加入交互项改善模型拟合度

知识点描述

多元线性回归交互项

知识点关键词：

线性回归

知识点所用软件：

Rstudio

操作目的：

1.使用多元线性回归进行推断和预测分析

2.得到系数并且进行初步的观察和解释

3.加入交互项改善模型拟合度

知识点素材（包括数据）：

totalold.csv

操作步骤:

1.读取数据，生成用于建模的新数据表格

用于分析的数据说明如下

2.回归分析

结果分析：

R-squared: 0.05463，Adjusted R-squared: 0.05353。可见预测性很差。参考价值仅在于相关性不在于预测性。

模型总结(显著性水平选择0.05)：

1.价格对销量有负面影响，符合预期。由于价格和销量均经过取对数处理，则对应的回归系数体现了销量对价格的弹性，即价格增长1%，连衣裙月销量相应的减少约0.234%

2.“韩版”、“新款”、“显瘦”、“中长款”均对销量有正面影响，其中“中长款”、“显瘦”对销量影响较为明显，“中长款”特质能有效提高约销量月12.4%；“显瘦”特质提高11.6%。对应回归系数体现销量的增长率

3.年龄和“是否新款”对销量的影响并不是很显著

4.基于描述性分析的判断，考虑加入年龄和各项标签的交互项

5.加入交互项后，变量描述如下

进行回归分析如下

结果分析：

R-squared: 0.05791，Adjusted R-squared: 0.0560。可见拟合优度并没有增加多少。参考价值仅在于相关性不在于预测性。

模型总结(显著性水平选择0.05)：

1.价格对月销量的影响与未交交互项时基本一致

2.年龄、“新款”对销量无影响

3.“显瘦”、“中长款”对销量的正面影响依旧显著，且相较之前系数变大即影响作用增强。“显瘦”会根据年龄层不同对销量产生不同影响，随着年龄的增加，“显瘦”对销量的影响作用减弱。

4.“中长款”随着年龄的变化对销量无影响

5.“韩版”在加入交互项后对销量产生负面影响，但是随着年龄的的增长对销量的影响作用增强

综上得到的结论

1.对商品标签进行词云分析能够提取对销量有显著影响的因素：显瘦、韩版、新款、中长款。回归分析近一步将其效应化

2.以上商品属性对销量的影响均会随适用年龄层的变化而变化，通常25-29周岁和35-39周岁年龄层对其最为敏感，具体量化指标由回归分析中的交互项系数体现

3.商品所在店铺信息对商品销量亦有预测作用：并非店铺评分越高商品销量越高，高销量易集中在中档评分；同时可观察到店铺所在地与商品销量的相关性，可进一步考察典型城市

操作结果：

见操作步骤中的总结部分

知识点小结：

多元回归分析只是众多有监督预测方式的一种，由于存在线性假设，而线性假设在现实中并不常见，所以这里加入了交互项，而效果一遍，需要进一步通过残差分析，当拟合优度较差的时候预测性就会变得很差，只能说明相关性，不适于预测。

特征线性回归数据清洗正则表达式精准营销有监督数据分析

数据分析咨询请扫描二维码

上一篇电力窃漏电用户识别案例

下一篇网站用户行为分析案例

电商女装销量描述与分析案例

考试指南

报考指南

热门栏目