一、案例综述
案例编号:
102004
案例名称:
作者姓名(或单位、或来源):
朱江
案例所属行业:
G56 航空运输业
案例所用软件:
R
案例包含知识点:
读取数据,描述性数据分析,探索性数据分析,数据清洗,多元回归分析
案例描述:
客户关系管理(CRM, Customer Relationship Management)在企业营销过程中举足轻重的地位目前已经毋庸置疑,企业针对不同价值的客户制定优化的个性化服务方案,采取不同的营销策略,将有限的营销资源集中于高价值客户,实现企业利润最大化目标,准确的客户分类结果是企业优化营销资源分配的重要依据。
客户价值识别最广泛使用的模型是RFM模型,有三个指标:最近消费时间间隔(Recency),消费频(Frequency),消费金额(Monetary)。RFM采用属性分箱方法,依据属性的平均值进行划分,可以细分出八个客户群。
其中消费金额表示客户购买该企业产品在一段时间内金额的总和,而航空票价受运输距离、舱位等级等多种因素影响,类似的金额可能会有不同的价值,例如购买长航线、低等级舱位票的旅客与购买短航线、高等级舱位票的旅客对于航空公司的价值是不同的,后者明显高些。故这个指标用来做航空公司客户价值分析不太合适,故我们选择客户在一定时间内累计的飞行里程M,以及客户在一定时间内乘坐舱位所对应的折扣系数的平均值C两个指标代替消费金额。同时会员时间的长短在一定程度上也能反映客户价值,故我们添加客户关系长度L,作为区分另一个客户的指标。
传统的RFM模型用在这里以来细分的客户群太多,提高了针对性营销的成本,二来指标不够准确和符合业务要求,故这里我们适当的改进和添加指标进行聚类,聚类模型用到的指标有:L会员入会时间距观测窗口结束的月数,R客户最近一次乘坐公司飞机距观测窗口结束的月数,F客户在观测窗口内乘坐公司飞机的次数,M客户在观测窗口内累计的飞机行程,C客户在观测窗口内乘坐舱位所对应的折扣系数的平均值。即对这五个指标进行K-Means聚类。
本案例共包含四个知识点。
1.数据探索分析,查看关心数据的分布情况
3.数据标准化
4.模型构建
案例执行形式:
单人上机
二、案例知识点:
知识点1:
知识点名称:数据探索分析
知识点所属工作角色:
数据导入,数据探索
知识点背景:
使用R导入最常用的csv格式的文件,并且对部分变量汇总
知识点描述
通过函数读入csv格式的数据,通过summary函数总结关心的变量
知识点关键词:
R 读取数据 五数概括
知识点所用软件:
Rstudio
操作目的:
R读取csv文件,五数概括
知识点素材(包括数据):
air_data.csv
操作步骤:
1.启动Rstudio
2.使用read.csv读取数据,设置相应的参数,这里我们设置表头为真。
3.使用summary函数五数概括要探索分析的变量
操作结果:
将R代码文件保存为data_explore.R以备后续使用。
知识点小结:
读取csv文件的时候注意常用的参数设置,本案例涉及到的参数设置较为简单,通过?read.csv查看更多的参数设置以便高效准确的读取数据。
对于变量常见的概括方式是使用summary函数进行五数概括,可以方便的查看变量的五个分位点的值以及均值,如包含缺失值会显示缺失值数量
知识点2:
知识点所属工作角色:
知识点背景:
对缺失值以及不合逻辑的数据进行处理
知识点描述
去除缺失值行,异常值行
知识点关键词:
知识点所用软件:
Rstudio
操作目的:
处理缺失值
找到不和业务逻辑的异常值行,并且处理
知识点素材(包括数据):
air_data.csv
操作步骤:
1.读取数据air_data.csv
2.删除票价为空的记录
3.删除票价为0、平均折扣率不为0、且总飞行公里数大于0的数据
4.将清洗后的数据写到data_clean.csv文件
操作结果:
根据业务逻辑清洗数据
将清洗后的数据保存在文件中
知识点小结:
通过业务逻辑产生逻辑索引,清除不需要的观测
知识点3:
知识点所属工作角色:
知识点背景:
在进行聚类之前,当变量之间的远近通过欧式距离度量的时候,距离很容易受到不同变量量纲的影响,为了消除这些量纲,需要将变量标准化,也可以成为正则化
知识点描述
知识点关键词:
标准化
知识点所用软件:
Rstudio
操作目的:
对各变量进行标准化,便于之后的聚类分析
知识点素材(包括数据):
zscoredata.csv
操作步骤:
1.读取数据
3.将标准化后的数据写入文件
操作结果:
将五个变量正则化,并且将正则化后的数据保存在文件中
知识点小结:
注意在聚类之前正则化数据即可
知识点4:
知识点名称:模型构建
知识点所属工作角色:
知识点背景:
知识点描述
知识点关键词:
知识点所用软件:
Rstudio
操作目的:
知识点素材(包括数据):
data_scale.csv
操作步骤:
1.读取之前保存的正则化数据
2.客户聚类,设置聚类类别数为5
3.查看聚类结果
操作结果:
可以看到聚类结果还是比较均匀的,可以从每个聚类中心去分析每一类所代表的客户类别,从而将其归到相应的营销策略中
知识点小结:
K均值聚类是根据欧几里德距离对观测进行分类的方法,属于聚类中较为简单常用的一种,聚类后的重点在于根据聚类中心结合业务知识应用到具体的情景中去,例如本案例对客户分群。
学数据分析技能一定要了解的大厂入门券,CDA数据分析师认证证书!
CDA(数据分析师认证),与CFA相似,由国际范围内数据科学领域行业专家、学者及知名企业共同制定并修订更新,迅速发展成行业内长期而稳定的全球大数据及数据分析人才标准,具有专业化、科学化、国际化、系统化等特性。
同时,CDA全栈考试布局和认证体系已得到教育部直属中国成人教育协会认可,并由为IBM、华为等提供全球认证服务的Pearson VUE面向全球提供灵活的考试服务。
报名方式
登录CDA认证考试官网注册报名>>点击报名
报名费用
Level Ⅰ:1200 RMB
Level Ⅱ:1700 RMB
Level Ⅲ:2000 RMB
考试地点
Level Ⅰ:中国区30+省市,70+城市,250+考场,考生可就近考场预约考试 >看看我所在的地哪里报名<
Level Ⅱ+Ⅲ:中国区30所城市,北京/上海/天津/重庆/成都/深圳/广州/济南/南京/杭州/苏州/福州/太原/武汉/长沙/西安/贵阳/郑州/南宁/昆明/乌鲁木齐/沈阳/哈尔滨/合肥/石家庄/呼和浩特/南昌/长春/大连/兰州>看看我所在的地哪里报名<
报考条件
业务数据分析师 CDA Level I >了解更多<
▷ 报考条件:无要求。
▷ 考试时间:随报随考。
建模分析师 CDA Level II >了解更多<
▷ 报考条件(满足任一即可):
1、获得CDA Level Ⅰ认证证书;
2、本科及以上学历,需从事数据分析相关工作1年以上;
3、本科以下学历,需从事数据分析相关工作2年以上。
▷ 考试时间:
一年四届 3月、6月、9月、12月的最后一个周六。
大数据分析师 CDA Level II >了解更多<
▷ 报考条件(满足任一即可):
1、获得CDA Level Ⅰ认证证书;
2、本科及以上学历,需从事数据分析相关工作1年以上;
3、本科以下学历,需从事数据分析相关工作2年以上。
▷ 考试时间:
一年四届 3月、6月、9月、12月的最后一个周六。
数据科学家 CDA Level III >了解更多<
▷ 报考条件(满足任一即可):
1、获得CDA Level Ⅱ认证证书;
2、本科及以上学历,需从事数据分析相关工作3年以上;
3、本科以下学历,需从事数据分析相关工作4年以上。
▷ 考试时间:
一年四届 3月、6月、9月、12月的最后一个周六。
(备注:数据分析相关工作不限行业,可涉及统计,数据分析,数据挖掘,数据库,数据管理,大数据架构等内容。)
——热门课程推荐:
想学习PYTHON数据分析与金融数字化转型精英训练营,您可以点击>>>“人才转型”了解课程详情;
想从事业务型数据分析师,您可以点击>>>“数据分析师”了解课程详情;
想从事大数据分析师,您可以点击>>>“大数据就业”了解课程详情;
想成为人工智能工程师,您可以点击>>>“人工智能就业”了解课程详情;
想了解Python数据分析,您可以点击>>>“Python数据分析师”了解课程详情;
想咨询互联网运营,你可以点击>>>“互联网运营就业班”了解课程详情;
想了解更多优质课程,请点击>>>