101002
电商行业——淘宝大规模网店综合分析
刘莎莎
H633纺织、服装及日用品
Sas EG Sas EM
CSV导入saseg 数据导入 表格合并 数据整理 数据筛选 变量`计算 频数统计
RFM模型 聚类分析 sas编程 关联规则
电子商务是指在各种形式的网络上,包括企业内网、局域网和互联网上以电子行式,进行交易活动和系列服务的行为,是依托于互联网技术的新型电子化商业活动。电子商务内容分为两部分,电子操作和商务贸易活动。利用电子技术,为买卖双方提供无距离限制的便捷贸易服务。电子商务紧密联系生产商和分销商,为客户提供更便捷的高性价比产品,推动了市场资源的全球合理化配置。
在大数据时代,电子商务得到了迅猛发展,电商企业如雨后春笋般出现。与传统的线下销售的企业相比较,电商企业具有的优势和经济价值的资源是爆炸性增长的数据。以天猫为例,根据互联网研究中心的数据显示,截至2014年第一季度,天猫的注册用户已经达到5 亿人次,在线商品的销售数量达到 9亿,天猫的活跃买家已经超过了2.5亿,平均每个购买活跃买家的购买数量达到了 50单以上,页面的浏览量已超过京东的3倍,拥有 22亿的超大规模,每天产品的讯息达到 5亿条。
面对如此海量的信息,数据分析、数据挖掘技术可以帮助电商企业在海量的数据中提取有价值的数据,这些数据有些用来分析消费者购买商品的规律和趋势,还可以帮助电商企业实现未来规划提出可行性报告。
此案例所用数据集来自于一个淘宝网店,属于电商行业,店主想通过数据分析提供一些管理或者销售思路,提高销售业绩。
该数据集记录的是该电商2013年一年的销售记录情况,共有四个csv文件,对应一年中的四个时间段。20130101-20130502.csv数据集中有26804条观测值,20130502-20130730.csv数据集中有32676条观测值,20130730-20131030.csv数据集中有30452条观测值,20131030-20131230.csv数据集中有30828条观测值。
第1个知识点将4个csv文件导入到sas软件中,并且保存为4个sas数据文件。
第2个知识点是对数据进行初步加工处理。将4个sas数据文件合并为一个大的数据文件,并且将合并后的数据文件保存为originaldata.sas7bdat;
第3个知识点将originaldata.sas7bdat数据集分成两部分,交易成功的数据和交易失败的数据,分别保存为success.sas7bdat和closedata.sas7bdat。
第4个知识点在success.sas7bdat基础上,删掉补邮费或差价的订单,将数据保存为shaixuan1.sas7bdat;
第5个知识点在shaixuan1.sas7bdat基础上,筛选出实际支付金额大于5的订单,将数据保存为shaixuan2.sas7bdat;
第6个知识点在shaixuan2.sas7bdat基础上,删掉退款类订单,将数据保存为shaixuan3.sas7bdat;
第7个知识点在shaixuan3.sas7bdat基础上,删除购买频率大于25的买家的订单,将最终的数据保存为finaldata.sas7bdat;
第8个知识点是在finaldata.sas7bdat数据集的基础之上进行的统计分析,各省交易的订单分布情况。
第9个知识点是对交易失败的订单进行分析。先是在originaldata.sas7bdat, success.sas7bdat, closedata.sas7bdat基础之上,分析了交易失败订单在总订单中占得比例。然后在closedata.sas7bdat基础之上,对交易失败的订单的失败原因进行了频数分析。
第10个知识点是在finaldata.sas7bdat数据集的基础之上进行进一步的计算,然后用RFM模型对客户进行画像分析,从而找到最有价值的客户。
第11个知识点在finaldata.sas7bdat数据集的基础之上进行进一步的加工,然后用SASEM模块对数据进行关联规则分析,从而可以发现一些推荐规则。
单人上机
数据导入
先要将外部数据导入到统计软件中才能进行后续的分析和建模。
将CSV数据导入到saseg中,并且将数据保存为sas格式。
CSV导入saseg 数据导入
Saseg
将CSV数据导入到saseg中。
20130101-20130502.csv数据集中有26804条观测值,20130502-20130730.csv数据集中有32676条观测值,20130730-20131030.csv数据集中有30452条观测值,20131030-20131230.csv数据集中有30828条观测值。
Ø 将本书所提供的淘宝数据文件夹中4个csv文件导入SAS。
Ø 操作步骤:
1) 新建逻辑库
Ø 执行“工具”,“分配项目逻辑库”输入8个字符以内的英文名称,如“MYLIB”,点击“下一步”;在电脑中选择一个文件夹,将其路径作为逻辑库的路径,如“E:***”单击“下一步”;
Ø 单击“下一步”,点击“完成”按钮。
图1分配项目逻辑库
2) 在逻辑库中依次导入四个csv文件
Ø 执行“文件”,“导入数据”,选择数据所在文件夹,选中要打开的数据,打开。
图2导入数据
Ø 在导入数据向导第一步,将输出SAS数据集的逻辑库改为上一步建立的永久逻辑库MYLIB,点击“下一步”按钮。
图3导入数据指定数据
Ø 勾选“重命名列以遵守SAS命名规则”,其他选默认,勾选首行范围包含字段名称,点击”下一步”按钮;
图4导入数据选择数据源
Ø 查看字段属性,若有不符合原数据特征的,进行修改,此处将订单编号类型改为字符串,点击“下一步”按钮;
Ø 点击“完成”按钮。
Ø 其他三个文件的数据导入同上。
Ø 除了前面需要注意的情况外,在导入第三张表格的时候,需要将第12列的类型改为数字。否则无法进行后面的表格合并。
将上面生成的sas数据文件保存在文件夹中存为_20130101_20130502.sas7bdat,_20130502_20130730.sas7bdat,_20130730_20131030.sas7bdat及_20131030_20131230.sas7bdat,以备后续使用。
想把csv格式数据导入到saseg中,先要将csv数据格式整理成比较标准的格式才不容易出错,如果csv文件是从数据库中导出的通常格式比较正常。
数据整理
我们需要将多个表格进行纵向合并,因为这些表格结构一样,只是时间不同,我们需要将其合并进行后续的分析和整理。
将多个sas数据文件合并为一个sas数据文件。
表格合并 数据整理
Saseg
将多个数据集合并为一个数据集。
_20130101_20130502.sas7bdat,_20130502_20130730.sas7bdat,_20130730_20131030.sas7bdat及_20131030_20131230.sas7bdat。
观察数据我们发现,四个数据为这家网店在2013年不同月份的订单情况,因此为方便以后分析,首先将四个表进行合并,此处进行追加表操作。
操作步骤:
Ø 查看四张表的列名是否一致。单击菜单栏最右侧的“属性”选项,在弹出的“属性”对话框中,点击“列”选项,可以看到列名。
图5查看数据属性
经查看四张表列名一致。
Ø 在工作区双击打开第一张表,在表上方的选项卡中,单击“数据”,选择 “追加表”;
图6追加表
Ø 在打开的“追加表”对话框中选择“添加表”,将其他三个表添加进去,最后单击“运行”按钮。合并后的数据文件存为数据集 originaldata.sas7bdat。
Ø 订单编号的表示方式为科学计数法,需要将其改为正常格式,只需右键单击“订单编号”变量,点击“属性”, 将“输出格式”改为“NLBESTw.d”。总宽度设定为17,小数位数为0。
Ø
将上面生成的sas数据文件保存在文件夹中存为originaldata.sas7bdat,以备后续使用。
将多个数据集合进行纵向合并要保证,多个数据文件结构一致。
数据整理
在数据分析过程中有些数据不适合进行后续分析,须要先将其剔除,或者将满足条件的数据筛选出来。
把交易成功的数据筛选出来。
数据筛选
SasEG
对数据进行筛选,将数据分为交易成功和交易失败的两部分。
originaldata.sas7bdat
Ø 启动sas eg
Ø Ø新建项目逻辑库。执行“工具”—“分配项目逻辑库”—输入8个字符以内的英文名称(比如mylib),点击“下一步”按钮;
Ø 注意指定合适的文件夹路径(和上面一节的文件路径保持一致)作为逻辑库放数据的地方。
Ø 把左侧下方的逻辑库mylib下面的original数据集拖入右侧的大窗口中。即可看到数据集作为一个对象出现在右侧窗口中。如果想查看这个数据集里面的内容,双击过程流中original数据集的图标 ,即可查看里面的数据。
Ø 在original窗口,点击查询生成器。把t1整个拉入右侧数据框,见下图。
图查询生成器窗口
Ø 单击“过滤数据“框,将“订单状态”拖至过滤原始数据框中,在弹出的“生成基本过滤器”窗口中运算符选择“等于”,选择“获取值”,单击“交易成功”,点击“下一步”按钮;
Ø 点击“完成”按钮;
Ø 点击“选项”
Ø 输出名称改为mylib.success,标签改为success
Ø 点击“运行”按钮。
筛选后的数据量为95596,原数据量为120757,所以,交易成功的订单量为95596,交易不成功订单量为25161。交易失败的查询过程和成功的查询过程相近,这里不再累述。
将去掉交易关闭数据之后的记录存为数据集success.sas7bdat(95596条观测)。将关闭交易的数据保存在closedata.sas7bdat(25161条观测)中。
将该知识点中产生的数据集success.sas7bdat,closedata.sas7bdat保存起来,以为后续使用。
筛选后的数据量为95596,原数据量为120757,所以,交易成功的订单量为95596,交易不成功订单量为25161。
数据整理
在数据分析过程中有些数据不适合进行后续分析,须要先将其剔除,或者将满足条件的数据筛选出来。
通过生成新变量的方式删掉补邮费或差价的订单。
数据筛选
SasEG
对数据进行筛选,删掉补邮费或差价的订单。
success.sas7bdat
Ø 启动sas eg
Ø Ø新建项目逻辑库。执行“工具”—“分配项目逻辑库”—输入8个字符以内的英文名称(比如mylib),点击“下一步”按钮;
Ø 注意指定合适的文件夹路径(和上面一节的文件路径保持一致)作为逻辑库放数据的地方。
Ø 把左侧下方的逻辑库mylib下面的success数据集拖入右侧的大窗口中。即可看到数据集作为一个对象出现在右侧窗口中。如果想查看这个数据集里面的内容,双击过程流中success数据集的图标 ,即可查看里面的数据。
通过观察我们发现宝贝标题里面没有出现商品编码(即没有出现符号“-”)的单子都属于纯粹的邮费/运费/差价,需要删掉。
Ø 在success数据集窗口中,点击查询生成器,将success数据集里面的变量全部拉入数据框。
Ø 点击过滤数据选项卡,点击新建过滤器,选择高级过滤器,在输入过滤器窗口中输入表达式:(find(t1.'宝贝标题'n,“- "))<>0,点击下一步,点击完成。
Ø 点击对数据排序选项卡,让数据按照实际支付金额进行升序排序。
Ø 点击运行。将输出名称改为mylib.shaixuan1,标签改为shaixuan1
Ø 输入结果见图
图9 查询器结果
将筛选后的观测值存为数据集shaixuan1.sas7bdat。筛选后的数据量为94665,原数据success量为95596,所以,邮费或者差价订单大概931单。
将该知识点中产生的数据集shaixuan1.sas7bdat保存起来,以为后续使用。
将筛选后的观测值存为数据集shaixuan1.sas7bdat。筛选后的数据量为94665,原数据success量为95596,所以,邮费或者差价订单大概931单。
数据整理
在数据分析过程中有些数据不适合进行后续分析,须要先将其剔除,或者将满足条件的数据筛选出来。
筛选出实际支付金额大于5的订单。
数据筛选
SasEG
对数据进行筛选,筛选出实际支付金额大于5的订单。
Shaixuan1.sas7bdat
Ø 启动sas eg
Ø Ø新建项目逻辑库。执行“工具”—“分配项目逻辑库”—输入8个字符以内的英文名称(比如mylib),点击“下一步”按钮;
Ø 注意指定合适的文件夹路径(和上面一节的文件路径保持一致)作为逻辑库放数据的地方。
Ø 把左侧下方的逻辑库mylib下面的shaixuan1数据集拖入右侧的大窗口中。即可看到数据集作为一个对象出现在右侧窗口中。如果想查看这个数据集里面的内容,双击过程流中shaixuan1数据集的图标 ,即可查看里面的数据。
Ø 在shaixuan1数据集窗口中,点击查询生成器,将shaixuan1数据集里面的变量全部拉入数据框。
Ø 单击“过滤数据框”,将“买家实际支付金额”拖至过滤原始数据框中,在弹出的“生成基本过滤器”窗口中运算符选择“大于”,在“值:”选项框中填写“5”,点击“下一步”按钮;点击“完成”按钮;
Ø 点击“选项”按钮。将输出结果保存为mylib.shaixuan2,将标签改为shaixuan2。点击“确定”按钮。
将筛选后的观测值存为数据集shaixuan2.sas7bdat。筛选后的数据量为94590,原数据shaixuan1量为94665,所以,买家实际支付金额小于5的订单量为75。
将该知识点中产生的数据集shaixuan2.sas7bdat保存起来,以为后续使用。
筛选后的数据量为94590,原数据shaixuan1量为94665,所以,买家实际支付金额小于5的订单量为75。
数据整理
在数据分析过程中有些数据不适合进行后续分析,须要先将其剔除,或者将满足条件的数据筛选出来。
筛选非退款类订单。
数据筛选
SasEG
对数据进行筛选,筛选非退款类订单。
Shaixuan2.sas7bdat
Ø 启动sas eg
Ø Ø新建项目逻辑库。执行“工具”—“分配项目逻辑库”—输入8个字符以内的英文名称(比如mylib),点击“下一步”按钮;
Ø 注意指定合适的文件夹路径(和上面一节的文件路径保持一致)作为逻辑库放数据的地方。
Ø 把左侧下方的逻辑库mylib下面的shaixuan2数据集拖入右侧的大窗口中。即可看到数据集作为一个对象出现在右侧窗口中。如果想查看这个数据集里面的内容,双击过程流中shaixuan2数据集的图标 ,即可查看里面的数据。
Ø 在shaixuan2数据集窗口中,点击查询生成器,将shaixuan2数据集里面的变量全部拉入数据框。
Ø 单击“过滤数据“框,将“买家实际支付金额”拖至过滤原始数据框中,在弹出的“生成基本过滤器”窗口中运算符选择“不等于”,在“值:”下拉菜单中选择“列”中的“买家应付邮费”,点击“下一步”按钮;
Ø 点击“完成”按钮;
Ø 点击“选项”按钮。将输出结果保存为mylib.shaixuan3,将标签改为shaixuan3。点击“确定”按钮。
Ø 点击“运行”按钮。
将筛选后的观测值存为数据集shaixuan3.sas7bdat,筛选后的数据量为92934,原数据shaixuan2量为94590,所以,退款类订单量为1656。
将该知识点中产生的数据集shaixuan3.sas7bdat保存起来,以为后续使用。
将筛选后的观测值存为数据集shaixuan3.sas7bdat,筛选后的数据量为92934,原数据shaixuan2量为94590,所以,退款类订单量为1656。。
数据整理
在数据分析过程中有些数据不适合进行后续分析,须要先将其剔除,或者将满足条件的数据筛选出来。
删除购买频率大于25的买家的订单。
变量`计算 数据筛选
SasEG
对数据进行筛选,删除购买频率大于25的买家的订单。
Shaixuan3.sas7bdat
Ø 启动sas eg
Ø Ø新建项目逻辑库。执行“工具”—“分配项目逻辑库”—输入8个字符以内的英文名称(比如mylib),点击“下一步”按钮;
Ø 注意指定合适的文件夹路径(和上面一节的文件路径保持一致)作为逻辑库放数据的地方。
Ø 把左侧下方的逻辑库mylib下面的shaixuan3数据集拖入右侧的大窗口中。即可看到数据集作为一个对象出现在右侧窗口中。如果想查看这个数据集里面的内容,双击过程流中shaixuan3数据集的图标 ,即可查看里面的数据。
Ø 在shaixuan3数据集窗口中,点击查询生成器,将shaixuan3数据集里面的变量全部拉入数据框。
Ø 单击“添加新的计算列”,在步骤一中选择“汇总列”,点击“下一步”按钮;选择“买家会员名”变量,点击“下一步”按钮; “汇总”选项选择“COUNT”,将“标签”设置为“购买频率”,点击“下一步”按钮;
Ø 在“查询生成器”页面中不勾选“汇总组”中的“自动选择组”,点击“编辑组”,将“买家会员名”拉入“分组依据”中,点击“确定”按钮;
Ø 勾选复选框“仅选择非重复行”。这是为了过滤掉重复记录的单子
Ø 单击“过滤数据”选项框,在“过滤汇总数据”那里,点击“新建过滤器”,选择“基本过滤器”,“过滤条件”的第一个选项框选择“_Calculation”变量,第二个选项框选择“小于”,第三个选项框中直接输入“25”,取消“值的两侧应加引号”,点击“完成”按钮;
Ø 点击“选项”按钮。将输出结果保存为mylib.finaldata,将标签改为finaldata。点击“确定”按钮。
Ø 点击“运行”按钮。
将筛选后的观测值存为数据集shaixuan4.sas7bdat,筛选后的数据量为89662,原数据shaixuan3量为92934,所以,些订单中有3272条订单被判定为刷销量订单。
将该知识点中产生的数据集shaixuan4.sas7bdat保存起来,以为后续使用。
将筛选后的观测值存为数据集shaixuan4.sas7bdat,筛选后的数据量为89662,原数据shaixuan3量为92934,所以,些订单中有3272条订单被判定为刷销量订单。
数据分析
对数据进行建模之前通常对数据进行一个基本描述,比如分类变量看下频数分布,我们这里对性别进行频数分析。
对变量进行频数分布分析。
频数统计
SasEG
对分类变量进行频数统计。
member.sas7bdat
Ø 启动sas eg
Ø Ø新建项目逻辑库。执行“工具”—“分配项目逻辑库”—输入8个字符以内的英文名称(比如mylib),点击“下一步”按钮;
Ø 注意指定合适的文件夹路径(和上面一节的文件路径保持一致)作为逻辑库放数据的地方。
Ø 把左侧下方的逻辑库mylib下面的finaldata数据集拖入右侧的大窗口中。可以看到数据集作为一个对象出现在右侧窗口中。如果想查看这个数据集里面的内容,双击过程流中finaldata数据集的图标 ,即可查看里面的数据。
Ø 在finaldata数据表下打开“查询生成器”,把左边的变量全部拖入右侧,点击“计算列”,在第一步选择类型中点选“高级表达式”;
Ø 在第二步“生成高级表达式”中用“收货地址”生成地区名,输入“SUBSTR(t1.col13, 1, (FIND(t1.col13," ")-1))”,可点选公式和变量名进行选择,点击“下一步”;
Ø 在第三步“修改其他选项”中将“标识符和列名”全部设为“province”,点击“下一步”按钮;
Ø 点击“完成”按钮;
Ø 点击“查询生成器”下,继续点击“计算列”,在第一步选择类型中点选“高级表达式”;
Ø 在第二步“生成高级表达式”中用“收货地址”生成城市名,输入“SUBSTR(t1.col13,FIND(t1.col13," ")+1)”,可点选公式和变量名进行选择,点击“下一步”按钮;
Ø 在第三步“修改其他选项”中将“标识符和列名”全部设为“city”,点击“下一步”按钮;
Ø 点击“完成”按钮;
Ø 上述两个变量计算好后,点击“选项”,将输出名称改为mylib.address,把标签改为address。点击“运行”按钮。结果见图12。
图12 查询器生成结果
Ø 在address数据集窗口,执行“描述”“单因子频数”。在“数据”选项下,把“province”拖入“分析变量”,在“统计量”选项下,缺失值的“显示频数”和“包含在计算中”前面打勾。点击“运行”按钮,输出结果见图12.7。
图12.7单因子频数结果
结果分析:可以看到北京的频数是最高的。
将该知识点过程中产生的address数据集进行保存,以方便后续的使用。
对于分类变量,可以通过单因子频数的方式对其进行描述,也可以通过饼形图对其进行描述。
数据分析
去掉交易关闭订单筛选后的数据量为95596,原数据量为120757,所以,交易成功的订单量为95596,交易不成功订单量为25161,交易不成功的订单量占总订单量的20.8%。
2013年这家店交易不成功的订单比重在合理范围之内,但在之后需要进一步分析交易关闭的原因,下一年的销售中需注意减少交易关闭的情况。
分析交易关闭的情况,分析原因,以便客户回访
一般淘宝交易关闭有两种情况:
1) 买家只是拍下商品,但是未付款,后续由卖家或者系统关闭了交易。
2) 买家申请退款成功,钱款已经退回买家支付宝账户,交易关闭。
可以做汇总表对这两种情况分别占的比例进行分析,由于第一种情况,买家未付款,在表中体现为“订单付款时间”为空;第二种情况,欠款已退回,在表中体现为“订单付款时间”存在。基本步骤如下:
生成交易关闭原因变量。
变量计算
SasEG
对变量进行计算。
对交易失败的订单进行归类,买家未付款定义为0类。欠款已退回定义为1类。计算新列col16_code,重新编码订单付款时间。编码逻辑为:订单付款时间等于.时,返回0,订单付款时间不等于.时,返回1。
closedata.sas7dbat
Ø 启动sas eg
Ø Ø新建项目逻辑库。执行“工具”—“分配项目逻辑库”—输入8个字符以内的英文名称(比如mylib),点击“下一步”按钮;
Ø 注意指定合适的文件夹路径(和上面一节的文件路径保持一致)作为逻辑库放数据的地方。
把左侧下方的逻辑库mylib下面的closedata数据集拖入右侧的大窗口中。可以看到数据集作为一个对象出现在右侧窗口中。如果想查看这个数据集里面的内容,双击过程流中closedata数据集的图标 ,即可查看里面的数据。
Ø 在数据表closedata下打开“查询生成器”,“选择数据”部分选择全部数据。
Ø 点击“选项”,将输出名称改为mylib.closedata1,把标签改为closedata1。
Ø 点击左上角的“计算列”,弹出“计算列”窗口,点击“新建”:新建计算列。
Ø 在第一步“选择类型”中点选“重新码列”;
Ø 在第二步“选择列”中选择“订单付款时间”,点击“下一步”按钮;
Ø 在第三步“指定替换”中“添加”替换,选择 “替换条件”窗口,订单付款时间等于.时,使用此值(W)输入0,勾选“该值的两侧应加引号(Q)”,点击“确定”按钮。按照同样的方法添加订单付款时间不等于.时,使用值1的条件,点击“确定”按钮。
Ø 列类型设为“字符”,添加完成后点击“下一步”;
Ø 在第四步“修改其他选项”中将“标识符和列名”全部设为“col16_code”,“输出格式”设置为“无”,点击“下一步”按钮;
Ø 点击“完成”按钮,关闭计算列窗口,点击“运行”按钮。
图15 创建辅助列col16_code
Ø 在closedata1数据集窗口,执行“描述”“单因子频数”。在“数据”选项下,把“col16_code”拖入“分析变量”,在“统计量”选项下,缺失值的“显示频数”和“包含在计算中”前面打勾。点击“运行”按钮,输出结果见图12.7。
图12.7单因子频数结果
从表中可以看出,交易关闭的订单中有85.76%的买家只是拍下商品,但是未付款,后续由卖家或者系统关闭了交易,而有14.24%的买家申请退款成功,钱款已经退回买家支付宝账户,交易关闭。
结合上一部分的描述分析,可以得出,交易关闭订单占总订单的20.8%,这其中有85.76%的买家只是拍下商品,但是未付款,14.24%的买家申请退款。也就是说,总订单中有17.83%(20.8% * 85.76% = 17.83%)的客户想要购买,却最终没有付钱;2.96%(20.8% * 14.24% = 17.83%)的客户购买以后选择退货。参考同行业指标,退货率比较正常,后续销售过程中应重点关注有购买欲望却最终没有购买的订单,采取相应的销售策略。
把该知识点的操作产生新的数据集closedata1.sas7bdat保存到路径下,以备后续使用。
有的时候我们先要计算出分类变量来然后再进行频数分布分析。交易关闭的订单中有85.76%的买家只是拍下商品,但是未付款,后续由卖家或者系统关闭了交易,而有14.24%的买家申请退款成功,钱款已经退回买家支付宝账户,交易关闭。
结合上一部分的描述分析,可以得出,交易关闭订单占总订单的20.8%,这其中有85.76%的买家只是拍下商品,但是未付款,14.24%的买家申请退款。也就是说,总订单中有17.83%(20.8% * 85.76% = 17.83%)的客户想要购买,却最终没有付钱;2.96%(20.8% * 14.24% = 17.83%)的客户购买以后选择退货。参考同行业指标,退货率比较正常,后续销售过程中应重点关注有购买欲望却最终没有购买的订单,采取相应的销售策略。
数据分析
客户画像(UserProfile)即给用户打上标签,用一种朴素、简洁的方法来描述用户信息。客户画像可以完美地抽象出一个用户的信息全貌,为进一步精准、快速地分析用户行为习惯、消费习惯等重要商业信息,提供了足够的数据基础。
RFM模型是Bult and Wansbeek于1995年提出来的,认为客户行为三要素 Recency (R)、Frequency (F) 与 Monetary (M)构成了客户购买潜力价值的核心组成部分。该模型经常应用于 CRM 框架下的客户行为分析。
用聚类分析对客户进行画像。
聚类分析 FRM sas编程
SasEG
对个案进行聚类分析。
finaldata.sas7bdat
Ø 启动sas eg
Ø Ø新建项目逻辑库。执行“工具”—“分配项目逻辑库”—输入8个字符以内的英文名称(比如mylib),点击“下一步”按钮;
Ø 注意指定合适的文件夹路径(和上面一节的文件路径保持一致)作为逻辑库放数据的地方。
把左侧下方的逻辑库mylib下面的finaldata数据集拖入右侧的大窗口中。可以看到数据集作为一个对象出现在右侧窗口中。如果想查看这个数据集里面的内容,双击过程流中finaldata数据集的图标 ,即可查看里面的数据。
Ø 在数据表finaldata下打开“查询生成器”,“选择数据”部分选择全部数据。
Ø 点击“选项”,将输出名称改为mylib.rfmp,把标签改为rfmp。
在查询生成器中计算所有订单距离2013年最后一天的订单付款天数
操作步骤:
Ø 在findaldata数据表下打开“查询生成器”,点击“计算列”,在第一步“选择类型”中点选“高级表达式”;
Ø 在第二步“生成高级表达式”中用观测窗口结束时间减去入会时间,输入“max(DATEPART(t1.col16))-DATEPART(t1.col16)”,可点选公式和变量名进行选择,点击“下一步”按钮;(计算下载数据的日期(可以用数据中的订单最新日期,)和所有订单时间间隔,设置为变量recently)
Ø 在第三步“修改其他选项”中将“标识符和列名”全部设为“Recently”, 修改格式数值为BESTX3.,点击“下一步”按钮;
Ø 点击“完成”按钮;
Ø 汇总组部分取消“自动选择组”的勾选。见图18。
Ø 点击“运行”按钮。
图18 查询生成器设定窗口。
分别计算RFM
操作步骤:
Ø 在rfmp数据集窗口下,点击查询生成器,将该查询输出结果设定为mylib.rfm1。将clo3(买家支付宝账号)、Recently、col9(买家实际支付金额)、col1拖至“选择数据”中,在数据框第三列的汇总栏中,分别单击Recently、col1、col9(买家实际支付金额)三个变量的下拉菜单,选择“MIN”、 “COUNT”、“SUM”。取消“自动选择组”的勾选,点击“编辑组”,选择t1.col3。勾选“仅选择非重复行”如下图所示,
Ø 单击“运行”按钮。
数据分析咨询请扫描二维码
准备CDA一级考试的时间因人而异,但根据多个来源的建议,平均备考周期在1个月左右为宜。有的考生可能在1-2周内完成备考并参加 ...
2024-09-13数据分析师的培训课程内容通常涵盖了数据分析的理论知识和实践技能,以帮助学员掌握数据分析的全过程。以下是一些典型的课程内 ...
2024-09-13近年来,随着社会的不断进步和科技的发展,计算机领域的各种新概念和技术不断涌现,并被广泛应用于企业管理、数据分析和公共服 ...
2024-09-13统计学作为一门理论与实践并重的学科,其就业前景一直被广泛看好。随着数据科学、大数据、人工智能等领域的快速发展,统计学在 ...
2024-09-13作者:鱼仔 某中厂老兵|CDA2级持证人|数据践行者 作为一名数据分析师,你可能会被朋友或同事问到:“数据分析师到底是干 ...
2024-09-13作者:鱼仔 某中厂老兵 | CDA2级持证人 | 数据践行者 统计学毕业生的就业选择非常多样化,几乎覆盖了各行各业。以 ...
2024-09-13数据分析人员使用业务分析报告汇报分析成果,对于业务分析报告的注意事项,以下不正确的是 A. 条理 ...
2024-09-13数据分析人员使用业务分析报告汇报分析成果,以下不属于业务分析报告调整完善阶段的是 A. &nbs ...
2024-09-13数据分析人员使用业务分析报告汇报分析成果,不同种类的分析报告着重点不同,以下不属于渠道合作报告的重点的是() A. & ...
2024-09-13作者:鱼仔 某中厂老兵|CDA2级持证人|数据践行者 作为一名数据分析师,很多人都会问,数据分析师究竟是干什么的?这个职 ...
2024-09-12【2024最新版】CDA考试教材:精益业务数据分析_CDA教材_精益数据分析CDA教材_精益数据分析_cda教材_考试教材 (cdaglobal.com) ...
2024-09-12作者:鱼仔 某中厂老兵|CDA2级持证人|数据践行者 数据分析师的日常工作涉及多个环节,从数据收集到最后的报告撰 ...
2024-09-12《数据分析专项练习题库》 《CDA数据分析认证考试模拟题库》 《企业数据分析面试题库》 75.利用Apriori算法计 ...
2024-09-12《数据分析专项练习题库》 《CDA数据分析认证考试模拟题库》 《企业数据分析面试题库》 一、单选题 1.某超市研究销 ...
2024-09-12在阿里巴巴、腾讯、字节跳动等科技巨头里,大数据是他们的核心竞争力之一。大数据帮助这些公司在海量数据中挖掘有价值的 ...
2024-09-12《数据分析专项练习题库》 《CDA数据分析认证考试模拟题库》 《企业数据分析面试题库》 一、单选题 1.统计图中的散 ...
2024-09-12《数据分析专项练习题库》 《CDA数据分析认证考试模拟题库》 《企业数据分析面试题库》 一、单选题 1.某超市研 ...
2024-09-12《CDA数据分析认证考试模拟题库》 一、单选题 1.统计图中的散点图主要用来(A)。 A ...
2024-09-12嗨喽,各位同学又到了公布CDA数据分析师认证考试LEVEL I的模拟试题时间了,今天给大家带来的是模拟试题(二)中的11-15题。 ...
2024-09-12CDA考试教材https://www.cdaglobal.com/article/475.html CDA模拟题库https://www.cdaglobal.com/ ...
2024-09-12