使用R语言实现数据分段-CDA数据分析师官网

热线电话：13121318867

使用R语言实现数据分段

2016-04-11

使用R语言实现数据分段

今天跟大家讲讲我工作中用到的数据分段，数据分段一般在什么地方会使用到呢？评分。之前写过一篇《实战: RFM》模型使用，那篇文章就详细介绍了CRM（客户关系管理）分析中关于RFM的应用。应用中就提到如何对R(最近一次消费距当前的时间间隔)、F(时间段内的消费频次)和M(时间段内的消费总额)指标进行分段，形成三种得分指标，最后根据得分指标计算出每个用户的总得分，从而可以计算用户的价值高低。

本文与之前提到的文章不同之处在于脚本的更改，使脚本更具灵活性。《实战: RFM模型使用》文中对R、F和M分段使用for循环，而且需要对每一个指标做循环，如果某个数据框的字段非常多，这样用for循环就显得非常麻烦。所以就有必要写一段更灵活的连续变量分段操作的R脚本。这里用案例说明一下数据分段操作：

#随机参数一列会员的消费总额

set.seed(1234)

Money <- c(round(runif(n = 5000, min = 56, max = 9143)), round(rnorm(n = 5000, mean = 892, sd = 23)))

#使用《实战: RFM模型使用》的分段方法，这里分成10段，尽量保证每段中的数据量大致相当

library(Hmisc)

#使用cut2()函数对数据进行分段

M_X <- cut2(x = Money, g = 10, onlycuts = TRUE)

#使用for循环将每一段范围值设定一个评分，即1:10分

M_score <- 0

for(i in 1:10) {

M_score[Money >= M_X[i] & Money < M_X[i+1]] = i

#由于范围Money < M_X[i+1]不包含最后一个值，故另外计算

M_score[Money == M_X[11]] = 10

}

table(M_score)

QQ截图20160322104116.png

通过上面的方法，可以将连续型数据分成n段，从案例返回的结果可知，10段中的样本量基本相当，可以视作分段成功。下面再看看自定义函数实现的分段：

#自定义得分函数，x为目标向量，g为所需分段数量

Score_function <- function(x,g = 10){

require(Hmisc)

#计算分段的切割点

cuts <- cut2(x,g = g, onlycuts = TRUE)

#将所需结果存放在res数据框中

res <- data.frame(x=x, cut = cut2(x, cuts = cuts),score = as.numeric(cut2(x, cuts = cuts)))

#这里返回res数据框中的评分字段

return(res[,'score'])

}

M_score2 <- Score_function(x = Money, g = 10)

table(M_score2)

QQ截图20160322104125.png

同样，分段的结果与《实战: RFM模型使用》脚本的结果一致，这里说一下自定义函数的优势：

1）可以灵活的更改分组数量，即g参数

2）不需要循环，速度得到提升

3）可以结合sapply()函数，应用于大型数据框（高维数据），从而避免对每个字段都计算一次for循环

下面创建一个数据框，来验收一下自定义函数的效果：

set.seed(1234)

x1 <- round(rnorm(n = 5000, mean = 125, sd = 30))

x2 <- round(runif(n = 5000, min = 10, max = 100))

x3 <- round(runif(n = 5000, min = 100, max = 1000))

x4 <- round(rnorm(n = 5000, mean = 100, sd = 10))

df <- data.frame(x1 = x1, x2 = x2, x3 = x3, x4 = x4)

#结合sapply()函数

df2 <- sapply(df, Score_function)

head(df2)

df2 <- as.data.frame(df2)

table(df2$x1);table(df2$x2);table(df2$x3);table(df2$x4)

QQ截图20160322104200.png

如果使用《实战: RFM模型使用》的方法，4个变量需要单独拿出来做4次for循环。如果你觉得还可以再套一个循环，这样就可以不用单独4次for循环了，问题是这样做会大大降低计算效率，影响速度。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试教材；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试题库；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

▷ 想了解CDA院校合作，点击>>> “院校合作” 了解咨询CDA院校合作；

RFM模型字段 R语言

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇图论在大数据分析中的作用！

下一篇CDA认证再升一档！与国家共同推进大数据人才培养标准教育事业！

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

京公网安备 11010802034615号经营许可证编号：京B2-20210330

联系电话：13321103290 (微信同号)

客服在线

立即咨询

客服在线

立即咨询

免密码登录

提交首次登录验证后自动注册

使用R语言实现数据分段

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

CDA持证人专访：贺译册谈产品经理的市场洞察力与数 ...

【CDA干货】多维度对比评估：分析逻辑与可视化效果 ...

从“单元格”到“字段”：CDA数据分析师视角下的表 ...

【CDA干货】漏斗拆解：核心逻辑、实操方法与业务优 ...

【CDA干货】SQL数值转日期函数全解析：主流数据库语 ...

数据分析必修课：CDA数据分析师视角下的表格结构数 ...

CDA持证人专访：杨旭谈数据产品经理的工作实践与核 ...

【CDA干货】Python变量定义与类实例化：核心原理、 ...

从“单元格”到“洞察”：CDA数据分析师视角下的表 ...

【CDA干货】联合索引与覆盖索引：本质区别、实战场 ...

【CDA干货】维度表与事实表：数据仓库建模的核心逻 ...

从“指标堆砌”到“体系落地”：CDA数据分析师视角 ...

【CDA干货】SQL计算列值趋势的全场景实现方法与实战 ...

【CDA干货】用户决策链路全解析：从认知到复购的增 ...

CDA 三级《敏捷数据挖掘》教材知识体系全面解读 ...

【CDA干货】付费玩家流失的核心原因与游戏行业长效 ...

CDA持证人专访：蒋少寒谈传统制造业与互联网行业数 ...

学完商业数据分析，开启 CDA 量化策略：从业务思维 ...

CDA持证人专访：赵森淼谈药企数据分析从业体验与转 ...

【CDA干货】卡方检验与T检验结果的标准化解读方法及 ...

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载