cda

全国校区

您的位置:首页 > 案例分享 > 电商女装销量描述与分析案例

电商女装销量描述与分析案例

2018-01-25

一、案例综述
案例编号:
102002

案例名称:
零售行业——电商女装销量描述与分析

作者姓名(或单位、或来源):
朱江

案例所属行业:
F523 纺织、服装及日用品专门零售

案例所用软件:
Rstudio

案例包含知识点:

案例描述:
目前网络购物异常的火爆,发展迅猛,基于数据分析的精准营销需求也随之增加。目前网络购物的几个特点是:私人消费增长中网络消费占的比重越来越大;移动端购物占网络购物的比例越来越大。

目前服装行业的最大类目是女装行业,不难理解相比于男装女装更新速度快、受众广以及品类多样,而女装行业中销售额占比最高的5个子类依次是:连衣裙、T恤、衬衫、休闲裤及毛针织衫。
于是我们针对连衣裙零售业,从某线上购物网站获得月销售量不低于99笔的连衣裙商品信息,共有5880个商品,每个商品包含自身的一些属性、交易信息、商品所属店铺的信息以及评价信息。

通过这些商品信息,我们可以进一步分析畅销连衣裙有什么共性,即有什么样性质的服装会更容易畅销,销量跟什么因素相关。借此我们可以把握整个市场的宏观特征,发掘高销量服装共性,找到影响销量的显著因素,并且量化这些显著因素。从而指导卖家更合理有效的捕捉流行趋势、定位市场、合理管理库存以及更改营销策略。

数据文件说明:原始文件是从某线上购物网站获得的经过处理的99个csv文件,这些文件包含所有六千个左右商品的信息,包含16个特征,可以分为三大类:
1.无用特征:数据获取日期、获取时间、商品id、店铺名、平均价格、评论数、店铺半年内动态评分、累计评价汇总。
2.商品相关信息:商品名称、商品价格、产品描述、月销量。
3.店铺信息、店铺评分。

无用特征中有些是基本不含有有价值信息的特征如时间、id、店铺名、平均价格,有些是重复且难以抽取有用信息的特征例如店铺动态评分,有些是预测后才能产品推行后才能获得的数据例如评论数、累计评价汇总。由于我们的目的是在产品推行前给出合理的建议提高产品销量,这些产品推行后的信息要么无法改善要么很难量化,故而归为无用特征

本案例包含如下知识点:
1.读取多个同格式的数据文件,并且合并
2.数据筛选,主要是字符变量的处理和关键信息提取
3.制作词云
4.根据关键词生成新数据

案例执行形式:
单人上机

二、案例知识点:
知识点1:
知识点名称:R读入多个数据文件并且合并

知识点所属工作角色:
数据导入

知识点背景:
使用R同时导入多个相同格式的csv文件,并且横向合并这些文件

知识点描述
与读入单个文件不同,读入多个文件需要先列出所有要读取的对象,然后采用apply函数族循环读取,再讲读取结果合并

知识点关键词:
R 读取多个文件 合并 正则表达式

知识点所用软件:
Rstudio

操作目的:
R读取多个csv文件并合并

知识点素材(包括数据):
tmall1.csv,tmall2.csv,tmall3.csv,……,tmall98.csv

操作步骤:
1.启动Rstudio
2.将数据文件夹Text3拷贝至工作目录下,设置当前工作目录到Text3文件夹
3.清空当前全局环境中存储的所有变量,释放内存空间
4.列出工作目录下包含的所有文件的文件名,注意这里要通过正则表达式指定读取的文件名格式
5.通过apply函数族循环读取列出的所有文件名,并且放在一个列表中
6.将列表中所有的元素横向合并,注意这里使用到do.call函数
7.将读取的文件写入”total.csv”


操作结果:
存储在内存中的数据框如上图,并且得到包含所有数据的total.csv文件
将R代码文件保存为readdata.R以备后续使用。

知识点小结:
本案例巧妙的通过提取文件名并且运用apply函数族简单快读的读取了多个数据文件到一个列表中,并且在避免循环的前提下使用do.call合并了所有数据

知识点2:
知识点名称:数据筛选

知识点所属工作角色:
数据清洗

知识点背景:
1.对缺失值进行处理
2.从字符串中提取有用信息
3.根据之后描述性分析、探索性分析及建模需求,对数据进行合理的转化和处理,使得数据更具解释性

知识点描述
1.去除带缺失值的行
2.从字符串中提取有用信息
3.采用函数对变量进行计算生成新的变量。

知识点关键词:
缺失值 数据清洗 字符串处理

知识点所用软件:
Rstudio

操作目的:
1.处理缺失值
2.从字符串中提取有用信息
3.因子变量标签转换,生成新的因子变量

知识点素材(包括数据):
total.csv

操作步骤:
1.启动Rstudio
2.读取数据total.csv

3.提取价格变量,提取销量变量中的数字,去除缺失值

 

4.去掉没有描述的商品,赋值给新的变量
 
5.分割产品描述,以回车和冒号分割

6.剔除非年龄信息
 
7.提取年龄
 
8.保存数据到csv文件
 
操作结果:
剔除了空元素在的行,通过字符变量处理生成了年龄变量
保存到新的数据文件

知识点小结:
一般从网站获取的数据都不够规整,如果获取大段的文字信息在一个观测中,字符处理就需要尽量全面的考虑所有情况,也要细致的核对结果。

包含大量字符的数据框写入csv文件时可能需要将所有数据统一转换为字符格式。

知识点3:
知识点名称:制作词云

知识点所属工作角色:
词云

知识点背景:
在处理一系列文本信息或者字符信息对应的词频分布时,词云这种描述方式显得非常直观易懂,能够清晰的分辨出前几个重要词以及次重要词

知识点描述
词云 描述性分析

知识点关键词:
词云 描述性分析

知识点所用软件:
Rstudio

操作目的:
删除非中文字符及关键词
制作词云

知识点素材(包括数据):
totalold.csv

操作步骤:
1.读取文件,提取商品名称所在的向量
 
2.删除非中文字符

3.结巴分词,查看词频

4.去除无意义关键词

5.选择色系,字体,绘制词云


操作结果:
绘制词云得到词云图,从中找到关键标签,每次词云显示的效果不同,最好多做几次取标签,结果如下
 
提取六个关键标签:新款、修身、韩版、中长款、显瘦、印花。选择若干进行后续分析。

知识点小结:
词云分析一般先要对字符型变量进行清洗,分词,根据停用词词典去词,找到词频分布,然后根据词分布做词云图

知识点4:
知识点名称:提取关键词生成新数据

知识点所属工作角色:
数据清洗

知识点背景:
提取关键词生成新变量

知识点描述
数据清洗 生成新变量

知识点关键词:
分词 生成新变量

知识点所用软件:
Rstudio

操作目的:
提取关键词生成新变量

知识点素材(包括数据):
totalold.csv

操作步骤:
1.读取数据

2.提取商品名称列,删去非中文字符,分词,使用分号隔开

3.在商品中提取关键词“韩版”,包含“韩版”的商品标记为1,其他为0,生成新变量“是否韩版”。对于其他关键词:“新款”、“显瘦”、“中长款”、“印花”、“修身”同理

4.提取销量中的数字,根据需要的变量生成新的数据框
 
5.将数据写入totalold.csv和keywords.csv
操作结果:

知识点小结:
通过数据清洗,提取关键词生成新变量的过程,可以生成规整清洗的新的数据表格,方便之后的描述和推断。


知识点5:
知识点名称:描述性分析

知识点所属工作角色:
描述性分析

知识点背景:
描述性分析的目标主要在于描述数据集的大致变化趋势和相关关系

知识点描述
描述性分析

知识点关键词:
描述性分析 ggplot2

知识点所用软件:
Rstudio

操作目的:
通过描述性分析分析销量的分布情况以及各销量对票房的影响

知识点素材(包括数据):
totalold.csv
keywords.csv
total.csv

操作步骤:
1.读取数据
 
2.提取销量和价格,查看销量分布,去除不关心的小于100销量的产品,对销量重新分区,ggplot2绘图观察

可见月销量在100至150件之间的连衣裙占比34.8%,分布明显右偏,月销量高于250的商品数量分布相对比较平均

3.将价格这一连续变量离散化,使用ggplot2制图

4.绘制年龄和对数销售量的条件箱线图

其中:箱体宽度代表不同年龄层的商品数量比较;25-29周岁年龄群对应的商品数量居多(57.8%),高销量商品也较多;青少年及老年消费者对应的商品数量较少,但是平均销量高,值得关注;各个年龄层之间的销售量没有明显差异。

5.观察是否显瘦和销量分别在全年龄段和25-29年龄段上的关系,分别做两个条件箱线图,并且放在一张图上

 

可见:“显瘦”特质在整体上对销量有一定的促进作用;25-29周岁年龄群的女性“显瘦”特质的促进作用较为显著

6.观察是否新款和销量分别在全年龄段、25-29年龄段上以及35-39年龄段上的关系,分别做三个条件箱线图,并且放在一张图上

其中,“新款”特质在整体上对销量有一定的促进作用,25-29周岁年龄群的女性更加偏好该特质,35-39周岁年龄群的女性对该特质无感甚至有轻微的负面反应。
7.观察是否中长款和销量分别在全年龄段、18-24年龄段上以及40-49年龄段上的关系,分别做三个条件箱线图,并且放在一张图上

可见,“中长款”特质对销量的促进作用相较之前明显更好些,18-24周岁的青年人群中尤为受欢迎,40-49周岁年龄群的女性对该特质仍有一定的好感但是特质影响明显小些

8.观察是否韩版和销量分别在全年龄段、18-24年龄段上以及35-39年龄段上的关系,分别做三个条件箱线图,并且放在一张图上

可见,“韩版”特质对销量有明显的正向影响,35-39周岁年龄群的女性尤为畅销,18-24周岁年龄群的女性对该特质无感。

9.通过上面对商品属性的特定特征描述性分析,可以得到如下几个小结:
i.月销量100-200笔的商品数量较多,且随着商品单价的上升有下降趋势
ii.各年龄层的平均销量差异并不明显,25-29周岁年龄层消费的商品数量较多
iii.从商品名称中提取关键标签,发现“显瘦”、“新款”、“中长款”、“韩版”特质整体对销量都有不同程度的积极作用。并且不同年龄层对销量的影响不同

10.读取原始数据total.csv,使用正则表达式提取地点(市)的关键词,并且只保留商家较多的市

11.构建地点和销量数据集,并且通过中位数调整地点数据,排序

12.绘制地点销量图

其中,武汉的商品是最少的(0.88%),但是商品平均销量最高;杭州商品数量最多(24.4%)且平均销量较高,优势较明显;广州、深圳,尤其是上海商品数量较多但是平均销量却一般
13.观察开店时间对销量的影响,先提取数据,在生成新的年份向量,最后制图

14.观察物流、服务、描述评分与销量的箱线图,去除缺失值,将评分因子化,合并4.6以下的评分

可见,店铺各项评分均较大程度的集中在4.7或4.8;评分4.7的店铺平均销量最高;店铺评分低于4.7的商品数量较少且月销量较低

操作结果:
见操作步骤中每一部分的输出图形
小结:
1.武汉、东莞等少数城市虽然商品数量较少但是商品销量却居全国前列
2.杭州商品数量最多(24.4%)且平均销量较高,属于热点城市
3.店铺成立时间对销量不会产生明显的影响
4.高销量连衣裙所属的店铺评分集中在4.7和4.8,其中4.7的店铺平均销量最高,评分4.7以下的店铺商品销量较少(很难达到100以上),很难入选该数据集

知识点小结:
通过数据描述性分析过程可以很直观的得到一些基本的结论,这些结论能够很好的帮助我们发现数据之间的内在关系

知识点6:
知识点名称:用多元线性回归进行推断和预测分析
知识点所属工作角色:
多元回归分析
知识点背景:
1.使用多元线性回归进行推断和预测分析
2.得到系数并且进行初步的观察和解释
3.加入交互项改善模型拟合度

知识点描述
多元线性回归 交互项

知识点关键词:
线性回归

知识点所用软件:
Rstudio

操作目的:
1.使用多元线性回归进行推断和预测分析
2.得到系数并且进行初步的观察和解释
3.加入交互项改善模型拟合度

知识点素材(包括数据):
totalold.csv

操作步骤:
1.读取数据,生成用于建模的新数据表格

用于分析的数据说明如下

2.回归分析

结果分析:
R-squared: 0.05463,Adjusted R-squared: 0.05353。可见预测性很差。参考价值仅在于相关性不在于预测性。

模型总结(显著性水平选择0.05):
1.价格对销量有负面影响,符合预期。由于价格和销量均经过取对数处理,则对应的回归系数体现了销量对价格的弹性,即价格增长1%,连衣裙月销量相应的减少约0.234%
2.“韩版”、“新款”、“显瘦”、“中长款”均对销量有正面影响,其中“中长款”、“显瘦”对销量影响较为明显,“中长款”特质能有效提高约销量月12.4%;“显瘦”特质提高11.6%。对应回归系数体现销量的增长率
3.年龄和“是否新款”对销量的影响并不是很显著
4.基于描述性分析的判断,考虑加入年龄和各项标签的交互项
5.加入交互项后,变量描述如下
 
进行回归分析如下

结果分析:
R-squared: 0.05791,Adjusted R-squared: 0.0560。可见拟合优度并没有增加多少。参考价值仅在于相关性不在于预测性。

模型总结(显著性水平选择0.05):
1.价格对月销量的影响与未交交互项时基本一致
2.年龄、“新款”对销量无影响
3.“显瘦”、“中长款”对销量的正面影响依旧显著,且相较之前系数变大即影响作用增强。“显瘦”会根据年龄层不同对销量产生不同影响,随着年龄的增加,“显瘦”对销量的影响作用减弱。
4.“中长款”随着年龄的变化对销量无影响
5.“韩版”在加入交互项后对销量产生负面影响,但是随着年龄的的增长对销量的影响作用增强

综上得到的结论
1.对商品标签进行词云分析能够提取对销量有显著影响的因素:显瘦、韩版、新款、中长款。回归分析近一步将其效应化

2.以上商品属性对销量的影响均会随适用年龄层的变化而变化,通常25-29周岁和35-39周岁年龄层对其最为敏感,具体量化指标由回归分析中的交互项系数体现

3.商品所在店铺信息对商品销量亦有预测作用:并非店铺评分越高商品销量越高,高销量易集中在中档评分;同时可观察到店铺所在地与商品销量的相关性,可进一步考察典型城市

操作结果:
见操作步骤中的总结部分

知识点小结:
多元回归分析只是众多有监督预测方式的一种,由于存在线性假设,而线性假设在现实中并不常见,所以这里加入了交互项,而效果一遍,需要进一步通过残差分析,当拟合优度较差的时候预测性就会变得很差,只能说明相关性,不适于预测。


完 谢谢观看

分享
收藏

OK