cda

您的位置:首页 > 案例分享 > 淘宝大规模网店综合分析案例

淘宝大规模网店综合分析案例

2018-01-09

一、案例综述

案例编号:

101002

案例名称:

电商行业——淘宝大规模网店综合分析

作者姓名(或单位、或来源):

刘莎莎

案例所属行业:

H633纺织、服装及日用品

案例所用软件:

Sas EG  Sas EM

案例包含知识点:

CSV导入saseg     数据导入 表格合并     数据整理 数据筛选 变量`计算 频数统计  

RFM模型 聚类分析 sas编程 关联规则


案例描述:

电子商务是指在各种形式的网络上,包括企业内网、局域网和互联网上以电子行式,进行交易活动和系列服务的行为,是依托于互联网技术的新型电子化商业活动。电子商务内容分为两部分,电子操作和商务贸易活动。利用电子技术,为买卖双方提供无距离限制的便捷贸易服务。电子商务紧密联系生产商和分销商,为客户提供更便捷的高性价比产品,推动市场资源的全球合理化配置。

在大数据时代,电子商务得到了迅猛发展,电商企业如雨后春笋般出现。与传统的线下销售的企业相比较,电商企业具有的优势和经济价值的资源是爆炸性增长的数据。以天猫为例,根据互联网研究中心的数据显示,截至2014年第一季度,天猫的注册用户已经达到5 亿人次,在线商品的销售数量达到 9亿,天猫的活跃买家已经超过了2.5亿,平均每个购买活跃买家的购买数量达到了 50单以上,页面的浏览量已超过京东的3倍,拥有 22亿的超大规模,每天产品的讯息达到 5亿条。

面对如此海量的信息,数据分析、数据挖掘技术可以帮助电商企业在海量的数据中提取有价值的数据,这些数据有些用来分析消费者购买商品的规律和趋势,还可以帮助电商企业实现未来规划提出可行性报告。

此案例所用数据集来自于一个淘宝网店,属于电商行业,店主想通过数据分析提供一些管理或者销售思路,提高销售业绩。

该数据集记录的是该电商2013一年的销售记录情况,共有四csv文件对应一年中的四个时间段。20130101-20130502.csv数据集中26804条观测值,20130502-20130730.csv数据集中32676观测值,20130730-20131030.csv数据集中30452观测值,20131030-20131230.csv数据集中30828观测值

1个知识点将4csv文件导入到sas软件中,并且保存为4sas数据文件。

2个知识点是对数据进行初步加工处理。将4sas数据文件合并为一个大的数据文件,并且将合并后的数据文件保存为originaldata.sas7bdat;

3个知识点将originaldata.sas7bdat数据集分成两部分,交易成功的数据和交易失败的数据,分别保存为success.sas7bdatclosedata.sas7bdat。

4个知识点在success.sas7bdat基础上,删掉补邮费或差价的订单,将数据保存为shaixuan1.sas7bdat;

5个知识点在shaixuan1.sas7bdat基础上,筛选出实际支付金额大于5订单,将数据保存为shaixuan2.sas7bdat;

6个知识点在shaixuan2.sas7bdat基础上,删掉退款类订单,将数据保存为shaixuan3.sas7bdat;

7个知识点在shaixuan3.sas7bdat基础上,删除购买频率大于25的买家的订单,将最终的数据保存为finaldata.sas7bdat;

8个知识点是在finaldata.sas7bdat数据集的基础之上进行的统计分析,各省交易的订单分布情况。

9个知识点是对交易失败的订单进行分析。先是在originaldata.sas7bdat, success.sas7bdat,  closedata.sas7bdat基础之上,分析了交易失败订单在总订单中占得比例。然后在closedata.sas7bdat基础之上,对交易失败的订单的失败原因进行了频数分析。

10个知识点是在finaldata.sas7bdat数据集的基础之上进行进一步的计算,然后用RFM模型对客户进行画像分析,从而找到最有价值的客户。

    11个知识点在finaldata.sas7bdat数据集的基础之上进行进一步的加工,然后用SASEM模块对数据进行关联规则分析,从而可以发现一些推荐规则。


案例执行形式

单人上机


二、案例知识点:


知识点1


知识点名称:SAS EG中数据的导入

知识点所属工作角色:

数据导入

知识点背景:

先要将外部数据导入到统计软件中才能进行后续的分析和建模。

知识点描述

将CSV数据导入到saseg中,并且将数据保存为sas格式。

知识点关键词:

CSV导入saseg     数据导入

知识点所用软件:

Saseg

操作目的:

CSV数据导入到saseg中。

知识点素材(包括数据):

20130101-20130502.csv数据集中26804条观测值,20130502-20130730.csv数据集中32676观测值,20130730-20131030.csv数据集中30452观测值,20131030-20131230.csv数据集中30828观测值

操作步骤:

Ø 将本书所提供的淘宝数据文件夹中4个csv文件导入SAS。

Ø 操作步骤:

1) 新建逻辑库

Ø 执行“工具”,“分配项目逻辑库”输入8个字符以内的英文名称,如“MYLIB”,点击“下一步”;在电脑中选择一个文件夹,将其路径作为逻辑库的路径,如“E:\***”单击“下一步”;

Ø 单击“下一步”,点击“完成”按钮。

 

图1分配项目逻辑库

2) 在逻辑库中依次导入四个csv文件

Ø 执行“文件”,“导入数据”,选择数据所在文件夹,选中要打开的数据,打开。

图2导入数据


Ø 在导入数据向导第一步,将输出SAS数据集的逻辑库改为上一步建立的永久逻辑库MYLIB,点击“下一步”按钮

 

图3导入数据指定数据

Ø 勾选“重命名列以遵守SAS命名规则”,其他选默认,勾选首行范围包含字段名称,点击”下一步”按钮;

 


图4导入数据选择数据源

Ø 查看字段属性,若有不符合原数据特征的,进行修改,此处将订单编号类型改为字符串,点击“下一步”按钮;

 

Ø 点击“完成”按钮。

Ø 其他三个文件的数据导入同上。

Ø 除了前面需要注意的情况外,在导入第三张表格的时候,需要将第12列的类型改为数字。否则无法进行后面的表格合并。

操作结果:

将上面生成的sas数据文件保存在文件夹中存为_20130101_20130502.sas7bdat,_20130502_20130730.sas7bdat,_20130730_20131030.sas7bdat及_20131030_20131230.sas7bdat,以备后续使用。

知识点小结:

想把csv格式数据导入到saseg中,先要将csv数据格式整理成比较标准的格式才不容易出错,如果csv文件是从数据库中导出的通常格式比较正常。


知识点2


知识点名称:多个数据集的纵向合并


知识点所属工作角色:

数据整理

知识点背景:

我们需要将多个表格进行纵向合并,因为这些表格结构一样,只是时间不同,我们需要将其合并进行后续的分析和整理。

知识点描述

将多个sas数据文件合并为一个sas数据文件。

知识点关键词:

表格合并     数据整理

知识点所用软件:

Saseg

操作目的:

将多个数据集合并为一个数据集。

知识点素材(包括数据):

_20130101_20130502.sas7bdat,_20130502_20130730.sas7bdat,_20130730_20131030.sas7bdat及_20131030_20131230.sas7bdat。

操作步骤:

观察数据我们发现,四个数据为这家网店在2013年不同月份的订单情况,因此为方便以后分析,首先将四个表进行合并,此处进行追加表操作。

操作步骤:

Ø 查看四张表的列名是否一致。单击菜单栏最右侧的“属性”选项,在弹出的“属性”对话框中,点击“列”选项,可以看到列名。

图5查看数据属性

经查看四张表列名一致。

Ø 在工作区双击打开第一张表,在表上方的选项卡中,单击“数据”,选择 “追加表”;

 

图6追加表

Ø 在打开的“追加表”对话框中选择“添加表”,将其他三个表添加进去,最后单击“运行”按钮。合并后的数据文件存为数据集 originaldata.sas7bdat。

Ø 订单编号的表示方式为科学计数法,需要将其改为正常格式,只需右键单击“订单编号”变量,点击“属性”, “输出格式”改为“NLBESTw.d”。总宽度设定为17,小数位数为0。

Ø 

操作结果:

将上面生成的sas数据文件保存在文件夹中存为originaldata.sas7bdat,以备后续使用。

知识点小结:

将多个数据集合进行纵向合并要保证,多个数据文件结构一致。


知识点3


知识点名称:把交易成功的数据筛选出来 

知识点所属工作角色:

数据整理

知识点背景:

在数据分析过程中有些数据不适合进行后续分析,须要先将其剔除,或者将满足条件的数据筛选出来。

知识点描述

把交易成功的数据筛选出来。

知识点关键词:

数据筛选

知识点所用软件:

SasEG

操作目的:

对数据进行筛选,将数据分为交易成功和交易失败的两部分。

知识点素材(包括数据):

originaldata.sas7bdat


操作步骤:

Ø 启动sas eg

Ø Ø新建项目逻辑库。执行“工具”—“分配项目逻辑库”—输入8个字符以内的英文名称(比如mylib),点击“下一步”按钮

Ø 注意指定合适的文件夹路径(和上面一节的文件路径保持一致)作为逻辑库放数据的地方。

Ø 把左侧下方的逻辑库mylib下面的original数据集拖入右侧的大窗口中。即可看到数据集作为一个对象出现在右侧窗口中。如果想查看这个数据集里面的内容,双击过程流中original数据集的图标 ,即可查看里面的数据。

Ø original窗口,点击查询生成器。把t1整个拉入右侧数据框,见下图。

 


图查询生成器窗口

Ø 单击“过滤数据“框,将“订单状态”拖至过滤原始数据框中,在弹出的“生成基本过滤器”窗口中运算符选择“等于”,选择“获取值”,单击“交易成功”,点击“下一步”按钮;

Ø 点击“完成”按钮;

Ø 点击“选项”

Ø 输出名称改为mylib.success,标签改为success


 

 

Ø 点击“运行”按钮。

筛选后的数据量为95596,原数据量为120757,所以,交易成功的订单量为95596,交易不成功订单量为25161。交易失败的查询过程和成功的查询过程相近,这里不再累述。

将去掉交易关闭数据之后的记录存为数据集success.sas7bdat(95596条观测)。将关闭交易的数据保存在closedata.sas7bdat(25161条观测)中。

操作结果:

将该知识点中产生的数据集success.sas7bdat,closedata.sas7bdat保存起来,以为后续使用

知识点小结:

筛选后的数据量为95596,原数据量为120757,所以,交易成功的订单量为95596,交易不成功订单量为25161。


知识点4


知识点名称:删掉补邮费或差价的订单

知识点所属工作角色:

数据整理

知识点背景:

在数据分析过程中有些数据不适合进行后续分析,须要先将其剔除,或者将满足条件的数据筛选出来。

知识点描述

通过生成新变量的方式删掉补邮费或差价的订单。

知识点关键词:

数据筛选

知识点所用软件:

SasEG

操作目的:

对数据进行筛选,删掉补邮费或差价的订单。

知识点素材(包括数据):

success.sas7bdat


操作步骤:

Ø 启动sas eg

Ø Ø新建项目逻辑库。执行“工具”—“分配项目逻辑库”—输入8个字符以内的英文名称(比如mylib),点击“下一步”按钮

Ø 注意指定合适的文件夹路径(和上面一节的文件路径保持一致)作为逻辑库放数据的地方。

Ø 把左侧下方的逻辑库mylib下面的success数据集拖入右侧的大窗口中。即可看到数据集作为一个对象出现在右侧窗口中。如果想查看这个数据集里面的内容,双击过程流中success数据集的图标 ,即可查看里面的数据。

 

通过观察我们发现宝贝标题里面没有出现商品编码(即没有出现符号“-”)的单子都属于纯粹的邮费/运费/差价,需要删掉。

Ø success数据集窗口中,点击查询生成器,将success数据集里面的变量全部拉入数据框。

Ø 点击过滤数据选项卡,点击新建过滤器,选择高级过滤器,在输入过滤器窗口中输入表达式:(find(t1.'宝贝标题'n,“- "))<>0,点击下一步,点击完成。

 

 

Ø 点击对数据排序选项卡,让数据按照实际支付金额进行升序排序。

Ø 点击运行。将输出名称改为mylib.shaixuan1,标签改为shaixuan1

 

Ø 输入结果见图

 

9 查询器结果

将筛选后的观测值存为数据shaixuan1.sas7bdat筛选后的数据量为94665,原数据success量为95596,所以,邮费或者差价订单大概931单。


操作结果:

将该知识点中产生的数据集shaixuan1.sas7bdat保存起来,以为后续使用

知识点小结:

将筛选后的观测值存为数据shaixuan1.sas7bdat筛选后的数据量为94665,原数据success量为95596,所以,邮费或者差价订单大概931单。


知识点5


知识点名称:筛选出实际支付金额大于5订单

知识点所属工作角色:

数据整理

知识点背景:

在数据分析过程中有些数据不适合进行后续分析,须要先将其剔除,或者将满足条件的数据筛选出来。

知识点描述

筛选出实际支付金额大于5订单

知识点关键词:

数据筛选

知识点所用软件:

SasEG

操作目的:

对数据进行筛选,筛选出实际支付金额大于5订单

知识点素材(包括数据):

Shaixuan1.sas7bdat


操作步骤:

Ø 启动sas eg

Ø Ø新建项目逻辑库。执行“工具”—“分配项目逻辑库”—输入8个字符以内的英文名称(比如mylib),点击“下一步”按钮

Ø 注意指定合适的文件夹路径(和上面一节的文件路径保持一致)作为逻辑库放数据的地方。

Ø 把左侧下方的逻辑库mylib下面的shaixuan1数据集拖入右侧的大窗口中。即可看到数据集作为一个对象出现在右侧窗口中。如果想查看这个数据集里面的内容,双击过程流中shaixuan1数据集的图标 ,即可查看里面的数据。

 

Ø shaixuan1数据集窗口中,点击查询生成器,将shaixuan1数据集里面的变量全部拉入数据框。

Ø 单击“过滤数据框”,将“买家实际支付金额”拖至过滤原始数据框中,在弹出的“生成基本过滤器”窗口中运算符选择“大于”,“值”选项框中填写“5”,点击“下一步”按钮;点击“完成”按钮;

Ø 点击“选项”按钮。将输出结果保存为mylib.shaixuan2,将标签改为shaixuan2。点击“确定”按钮。

 

将筛选后的观测值存为数据shaixuan2.sas7bdat筛选后的数据量为94590,原数据shaixuan1量为94665,所以,买家实际支付金额小于5的订单量为75。


操作结果:

将该知识点中产生的数据集shaixuan2.sas7bdat保存起来,以为后续使用

知识点小结:

筛选后的数据量为94590,原数据shaixuan1量为94665,所以,买家实际支付金额小于5的订单量为75。


知识点6


知识点名称:筛选非退款类订单

知识点所属工作角色:

数据整理

知识点背景:

在数据分析过程中有些数据不适合进行后续分析,须要先将其剔除,或者将满足条件的数据筛选出来。

知识点描述

筛选非退款类订单

知识点关键词:

数据筛选

知识点所用软件:

SasEG

操作目的:

对数据进行筛选,筛选非退款类订单

知识点素材(包括数据):

Shaixuan2.sas7bdat


操作步骤:

Ø 启动sas eg

Ø Ø新建项目逻辑库。执行“工具”—“分配项目逻辑库”—输入8个字符以内的英文名称(比如mylib),点击“下一步”按钮

Ø 注意指定合适的文件夹路径(和上面一节的文件路径保持一致)作为逻辑库放数据的地方。

Ø 把左侧下方的逻辑库mylib下面的shaixuan2数据集拖入右侧的大窗口中。即可看到数据集作为一个对象出现在右侧窗口中。如果想查看这个数据集里面的内容,双击过程流中shaixuan2数据集的图标 ,即可查看里面的数据。

 

Ø shaixuan2数据集窗口中,点击查询生成器,将shaixuan2数据集里面的变量全部拉入数据框。

Ø 单击“过滤数据“框,将“买家实际支付金额”拖至过滤原始数据框中,在弹出的“生成基本过滤器”窗口中运算符选择“不等于”,“值”下拉菜单中选择“列”中的“买家应付邮费”,点击“下一步”按钮;

Ø 点击“完成”按钮;

Ø 点击“选项”按钮。将输出结果保存为mylib.shaixuan3,将标签改为shaixuan3。点击“确定”按钮。

 


Ø 点击“运行”按钮。

   将筛选后的观测值存为数据shaixuan3.sas7bdat,筛选后的数据量为92934,原数据shaixuan2量为94590,所以,退款类订单量为1656


操作结果:

将该知识点中产生的数据集shaixuan3.sas7bdat保存起来,以为后续使用

知识点小结:

将筛选后的观测值存为数据shaixuan3.sas7bdat,筛选后的数据量为92934,原数据shaixuan2量为94590,所以,退款类订单量为1656。。


知识点7


知识点名称:删除购买频率大于25的买家的订单

知识点所属工作角色:

数据整理

知识点背景:

在数据分析过程中有些数据不适合进行后续分析,须要先将其剔除,或者将满足条件的数据筛选出来。

知识点描述

删除购买频率大于25的买家的订单

知识点关键词:

变量`计算 数据筛选

知识点所用软件:

SasEG

操作目的:

对数据进行筛选,删除购买频率大于25的买家的订单

知识点素材(包括数据):

Shaixuan3.sas7bdat


操作步骤:

Ø 启动sas eg

Ø Ø新建项目逻辑库。执行“工具”—“分配项目逻辑库”—输入8个字符以内的英文名称(比如mylib),点击“下一步”按钮

Ø 注意指定合适的文件夹路径(和上面一节的文件路径保持一致)作为逻辑库放数据的地方。

Ø 把左侧下方的逻辑库mylib下面的shaixuan3数据集拖入右侧的大窗口中。即可看到数据集作为一个对象出现在右侧窗口中。如果想查看这个数据集里面的内容,双击过程流中shaixuan3数据集的图标 ,即可查看里面的数据。

Ø shaixuan3数据集窗口中,点击查询生成器,将shaixuan3数据集里面的变量全部拉入数据框。

Ø 单击“添加新的计算列”,在步骤一中选择“汇总列”,点击“下一步”按钮;选择“买家会员名”变量,点击“下一步”按钮 “汇总”选项选择“COUNT”,“标签”设置为“购买频率”,点击“下一步”按钮;

Ø 在“查询生成器”页面中不勾选“汇总组”中“自动选择组”,点击“编辑组”,将“买家会员名”拉入“分组依据”中,点击“确定”按钮;

Ø 勾选复选框“仅选择非重复行”。这是为了过滤掉重复记录的单子

Ø 单击“过滤数据”选项框,“过滤汇总数据”那里,点击“新建过滤器”,选择“基本过滤器”,“过滤条件”的第一个选项框选择“_Calculation”变量,第二个选项框选择“小于”,第三个选项框中直接输入“25”,取消“值的两侧应加引号”,点击“完成”按钮;

Ø 点击“选项”按钮。将输出结果保存为mylib.finaldata,将标签改为finaldata。点击“确定”按钮。

Ø 点击“运行”按钮。

   将筛选后的观测值存为数据shaixuan4.sas7bdat,筛选后的数据量为89662,原数据shaixuan3量为92934,所以,些订单中有3272条订单被判定为刷销量订单


操作结果:

将该知识点中产生的数据集shaixuan4.sas7bdat保存起来,以为后续使用

知识点小结:

将筛选后的观测值存为数据shaixuan4.sas7bdat,筛选后的数据量为89662,原数据shaixuan3量为92934,所以,些订单中有3272条订单被判定为刷销量订单



知识点8


知识点名称:数据的描述性分析——各省份订单交易分布情况

知识点所属工作角色:

数据分析

知识点背景:

对数据进行建模之前通常对数据进行一个基本描述,比如分类变量看下频数分布,我们这里对性别进行频数分析。

知识点描述

对变量进行频数分布分析。

知识点关键词:

频数统计  

知识点所用软件:

SasEG

操作目的:

对分类变量进行频数统计。

知识点素材(包括数据):

member.sas7bdat


操作步骤:

Ø 启动sas eg

Ø Ø新建项目逻辑库。执行“工具”—“分配项目逻辑库”—输入8个字符以内的英文名称(比如mylib),点击“下一步”按钮

Ø 注意指定合适的文件夹路径(和上面一节的文件路径保持一致)作为逻辑库放数据的地方。

Ø 把左侧下方的逻辑库mylib下面的finaldata数据集拖入右侧的大窗口中。可以看到数据集作为一个对象出现在右侧窗口中。如果想查看这个数据集里面的内容,双击过程流中finaldata数据集的图标 ,即可查看里面的数据。

Ø 在finaldata数据表下打开“查询生成器”,把左边的变量全部拖入右侧,点击“计算列”,在第一步选择类型中点选“高级表达式”;

Ø 在第二步“生成高级表达式”中用“收货地址”生成地区名,输入“SUBSTR(t1.col13, 1, (FIND(t1.col13," ")-1))”,可点选公式和变量名进行选择,点击“下一步”;

Ø 在第三步“修改其他选项”中将“标识符和列名”全部设为“province”,点击“下一步”按钮;

Ø 点击“完成”按钮;

Ø 点击“查询生成器”下,继续点击“计算列”,在第一步选择类型中点“高级表达式”;

Ø 在第二步“生成高级表达式”中用“收货地址”生成城市名,输入“SUBSTR(t1.col13,FIND(t1.col13," ")+1)”,可点选公式和变量名进行选择,点击“下一步”按钮;

Ø 在第三步“修改其他选项”中将“标识符和列名”全部设为“city”,点击“下一步”按钮;

Ø 点击“完成”按钮;

Ø 上述两个变量计算好后,点击“选项”,将输出名称改为mylib.address,把标签改为address。点击“运行”按钮。结果见图12。

 

12 查询器生成结果


Ø address数据集窗口,执行“描述”“单因子频数”。在“数据”选项下,把“province”拖入“分析变量”,在“统计量”选项下,缺失值的“显示频数”和“包含在计算中”前面打勾。点击“运行”按钮,输出结果见图12.7。

 

图12.7单因子频数结果

    结果分析:可以看到北京的频数是最高的。

操作结果:

将该知识点过程中产生的address数据集进行保存,以方便后续的使用。

知识点小结:

对于分类变量,可以通过单因子频数的方式对其进行描述,也可以通过饼形图对其进行描述。


知识点9


知识点名称:交易关闭订单的探索性分析

知识点所属工作角色:

数据分析

知识点背景:

去掉交易关闭订单筛选后的数据量为95596,原数据量为120757,所以,交易成功的订单量为95596,交易不成功订单量为25161,交易不成功的订单量占总订单量的20.8%。

2013年这家店交易不成功的订单比重在合理范围之内,但在之后需要进一步分析交易关闭的原因,下一年的销售中需注意减少交易关闭的情况。

分析交易关闭的情况,分析原因,以便客户回访

一般淘宝交易关闭有两种情况:

1) 买家只是拍下商品,但是未付款,后续由卖家或者系统关闭了交易。

2) 买家申请退款成功,钱款已经退回买家支付宝账户,交易关闭。

可以做汇总表对这两种情况分别占的比例进行分析,由于第一种情况,买家未付款,在表中体现为订单付款时间为空;第二种情况,欠款已退回,在表中体现为订单付款时间存在。基本步骤如下:


知识点描述

生成交易关闭原因变量。

知识点关键词:

变量计算

知识点所用软件:

SasEG

操作目的:

对变量进行计算。

对交易失败的订单进行归类,买家未付款定义为0类。欠款已退回定义为1类。计算新列col16_code,重新编码订单付款时间。编码逻辑为:订单付款时间等于.时,返回0,订单付款时间不等于.时,返回1。

知识点素材(包括数据):

closedata.sas7dbat


操作步骤:

Ø 启动sas eg

Ø Ø新建项目逻辑库。执行“工具”—“分配项目逻辑库”—输入8个字符以内的英文名称(比如mylib),点击“下一步”按钮

Ø 注意指定合适的文件夹路径(和上面一节的文件路径保持一致)作为逻辑库放数据的地方。

把左侧下方的逻辑库mylib下面的closedata数据集拖入右侧的大窗口中。可以看到数据集作为一个对象出现在右侧窗口中。如果想查看这个数据集里面的内容,双击过程流中closedata数据集的图标 ,即可查看里面的数据。

Ø 在数据表closedata下打开“查询生成器”“选择数据”部分选择全部数据。

Ø 点击“选项”,将输出名称改为mylib.closedata1,把标签改为closedata1。

Ø 点击左上角的“计算列”,弹出“计算列”窗口,点击“新建”:新建计算列。

Ø 在第一步“选择类型”中点选“重新码列”;

Ø 在第二步“选择列”中选择“订单付款时间”,点击“下一步”按钮;

Ø 在第三步“指定替换”“添加”替换,选择 “替换条件”窗口,订单付款时间等于.时,使用此值W)输入0,勾选“该值的两侧应加引号Q”,点击“确定”按钮。按照同样的方法添加订单付款时间不等于.时,使用值1的条件,点击“确定”按钮。

 

Ø 列类型设为“字符”,添加完成后点击“下一步”;

Ø 在第四步“修改其他选项”中将“标识符和列名”全部设为“col16_code”,“输出格式”设置为“无”,点击“下一步”按钮;

Ø 点击“完成”按钮,关闭计算列窗口,点击“运行”按钮。

 

图15 创建辅助列col16_code

Ø 在closedata1数据集窗口,执行“描述”“单因子频数”。在“数据”选项下,把“col16_code”拖入“分析变量”,在“统计量”选项下,缺失值的“显示频数”和“包含在计算中”前面打勾。点击“运行”按钮,输出结果见图12.7。

 

 

图12.7单因子频数结果

   表中可以看出,交易关闭的订单中有85.76%的买家只是拍下商品,但是未付款,后续由卖家或者系统关闭了交易,而有14.24%的买家申请退款成功,钱款已经退回买家支付宝账户,交易关闭。

结合上一部分的描述分析,可以得出,交易关闭订单占总订单的20.8%,这其中85.76%的买家只是拍下商品,但是未付款,14.24%的买家申请退款。也就是说,总订单中有17.83%20.8% * 85.76% = 17.83%)的客户想要购买,却最终没有付钱;2.96%20.8% * 14.24% = 17.83%)的客户购买以后选择退货。参考同行业指标,退货率比较正常,后续销售过程中应重点关注有购买欲望却最终没有购买的订单,采取相应的销售策略。


操作结果:

把该知识点的操作产生新的数据集closedata1.sas7bdat保存到路径下,以备后续使用。

知识点小结:

有的时候我们先要计算出分类变量来然后再进行频数分布分析。交易关闭的订单中有85.76%的买家只是拍下商品,但是未付款,后续由卖家或者系统关闭了交易,而有14.24%的买家申请退款成功,钱款已经退回买家支付宝账户,交易关闭。

结合上一部分的描述分析,可以得出,交易关闭订单占总订单的20.8%,这其中85.76%的买家只是拍下商品,但是未付款,14.24%的买家申请退款。也就是说,总订单中有17.83%20.8% * 85.76% = 17.83%)的客户想要购买,却最终没有付钱;2.96%20.8% * 14.24% = 17.83%)的客户购买以后选择退货。参考同行业指标,退货率比较正常,后续销售过程中应重点关注有购买欲望却最终没有购买的订单,采取相应的销售策略。


知识点10


知识点名称:客户信息的挖掘处理:RFM模型进行客户画像

知识点所属工作角色:

数据分析

知识点背景:

客户画像(UserProfile)即给用户打上标签,用一种朴素、简洁的方法来描述用户信息。客户画像可以完美地抽象出一个用户的信息全貌,为进一步精准、快速地分析用户行为习惯、消费习惯等重要商业信息,提供了足够数据基础。

RFM模型Bult and Wansbeek1995提出来的,认为客户行为三要素 Recency (R)Frequency (F) Monetary (M)构成了客户购买潜力价值的核心组成部分。该模型经常应用于 CRM 框架下的客户行为分析。

知识点描述

用聚类分析对客户进行画像。

知识点关键词:

聚类分析 FRM  sas编程

知识点所用软件:

SasEG

操作目的:

对个案进行聚类分析。

知识点素材(包括数据):

finaldata.sas7bdat


操作步骤:

Ø 启动sas eg

Ø Ø新建项目逻辑库。执行“工具”—“分配项目逻辑库”—输入8个字符以内的英文名称(比如mylib),点击“下一步”按钮

Ø 注意指定合适的文件夹路径(和上面一节的文件路径保持一致)作为逻辑库放数据的地方。

把左侧下方的逻辑库mylib下面的finaldata数据集拖入右侧的大窗口中。可以看到数据集作为一个对象出现在右侧窗口中。如果想查看这个数据集里面的内容,双击过程流中finaldata数据集的图标 ,即可查看里面的数据。

Ø 在数据表finaldata下打开“查询生成器”“选择数据”部分选择全部数据。

Ø 点击“选项”,将输出名称改为mylib.rfmp,把标签改为rfmp。

在查询生成器中计算所有订单距离2013年最后一天的订单付款天数

    操作步骤:

Ø 在findaldata数据表下打开“查询生成器”,点击“计算列”,在第一步“选择类型”中点选“高级表达式”;

Ø 在第二步“生成高级表达式”中用观测窗口结束时间减去入会时间,输入“max(DATEPART(t1.col16))-DATEPART(t1.col16)”,可点选公式和变量名进行选择,点击“下一步”按钮;(计算下载数据的日期(可以用数据订单新日期,所有订单时间间隔,设置为变量recently)

Ø 在第三步“修改其他选项”中将“标识符和列名”全部设为“Recently”, 修改格式数值为BESTX3.,点击“下一步”按钮;

Ø 点击“完成”按钮;

Ø 汇总组部分取消“自动选择组”的勾选。见图18。

Ø 点击“运行”按钮。

 

18 查询生成器设定窗口。


分别计算RFM

操作步骤:

Ø rfmp数据集窗口下,点击查询生成器,将该查询输出结果设定为mylib.rfm1。clo3(买家支付宝账号)、Recently、col9(买家实际支付金额)col1拖至“选择数据”中,在数据框第三列的汇总栏中,分别单击Recently、col1、col9(买家实际支付金额)三个变量的下拉菜单,选择“MIN”、 “COUNT”“SUM”。取消“自动选择组”的勾选,点击“编辑组”,选择t1.col3。勾选“仅选择非重复行”如下图所示,

 

Ø 单击“运行”按钮。

完 谢谢观看

分享
收藏

OK