京公网安备 11010802034615号
经营许可证编号:京B2-20210330
使用R语言实现数据分段
今天跟大家讲讲我工作中用到的数据分段,数据分段一般在什么地方会使用到呢?评分。之前写过一篇《实战: RFM》模型使用,那篇文章就详细介绍了CRM(客户关系管理)分析中关于RFM的应用。应用中就提到如何对R(最近一次消费距当前的时间间隔)、F(时间段内的消费频次)和M(时间段内的消费总额)指标进行分段,形成三种得分指标,最后根据得分指标计算出每个用户的总得分,从而可以计算用户的价值高低。
本文与之前提到的文章不同之处在于脚本的更改,使脚本更具灵活性。《实战: RFM模型使用》文中对R、F和M分段使用for循环,而且需要对每一个指标做循环,如果某个数据框的字段非常多,这样用for循环就显得非常麻烦。所以就有必要写一段更灵活的连续变量分段操作的R脚本。这里用案例说明一下数据分段操作:
#随机参数一列会员的消费总额
set.seed(1234)
Money <- c(round(runif(n = 5000, min = 56, max = 9143)), round(rnorm(n = 5000, mean = 892, sd = 23)))
#使用《实战: RFM模型使用》的分段方法,这里分成10段,尽量保证每段中的数据量大致相当
library(Hmisc)
#使用cut2()函数对数据进行分段
M_X <- cut2(x = Money, g = 10, onlycuts = TRUE)
#使用for循环将每一段范围值设定一个评分,即1:10分
M_score <- 0
for(i in 1:10) {
M_score[Money >= M_X[i] & Money < M_X[i+1]] = i
#由于范围Money < M_X[i+1]不包含最后一个值,故另外计算
M_score[Money == M_X[11]] = 10
}
table(M_score)
通过上面的方法,可以将连续型数据分成n段,从案例返回的结果可知,10段中的样本量基本相当,可以视作分段成功。下面再看看自定义函数实现的分段:
#自定义得分函数,x为目标向量,g为所需分段数量
Score_function <- function(x,g = 10){
require(Hmisc)
#计算分段的切割点
cuts <- cut2(x,g = g, onlycuts = TRUE)
#将所需结果存放在res数据框中
res <- data.frame(x=x, cut = cut2(x, cuts = cuts),score = as.numeric(cut2(x, cuts = cuts)))
#这里返回res数据框中的评分字段
return(res[,'score'])
}
M_score2 <- Score_function(x = Money, g = 10)
table(M_score2)
同样,分段的结果与《实战: RFM模型使用》脚本的结果一致,这里说一下自定义函数的优势:
1)可以灵活的更改分组数量,即g参数
2)不需要循环,速度得到提升
3)可以结合sapply()函数,应用于大型数据框(高维数据),从而避免对每个字段都计算一次for循环
下面创建一个数据框,来验收一下自定义函数的效果:
set.seed(1234)
x1 <- round(rnorm(n = 5000, mean = 125, sd = 30))
x2 <- round(runif(n = 5000, min = 10, max = 100))
x3 <- round(runif(n = 5000, min = 100, max = 1000))
x4 <- round(rnorm(n = 5000, mean = 100, sd = 10))
df <- data.frame(x1 = x1, x2 = x2, x3 = x3, x4 = x4)
#结合sapply()函数
df2 <- sapply(df, Score_function)
head(df2)
df2 <- as.data.frame(df2)
table(df2$x1);table(df2$x2);table(df2$x3);table(df2$x4)
如果使用《实战: RFM模型使用》的方法,4个变量需要单独拿出来做4次for循环。如果你觉得还可以再套一个循环,这样就可以不用单独4次for循环了,问题是这样做会大大降低计算效率,影响速度。
CDA学员免费下载查看报告全文:2026全球数智化人才指数报告【CDA数据科学研究院】.pdf
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在Excel数据分析中,数据透视表是汇总、整理海量数据的高效工具,而公式则是实现数据二次计算、逻辑判断的核心功能。实际操作中 ...
2026-04-30Excel透视图是数据分析中不可或缺的工具,它能将透视表中的数据快速可视化,帮助我们直观捕捉数据规律、呈现分析结果。但在实际 ...
2026-04-30 很多数据分析师能熟练地计算指标、搭建标签体系,但当被问到“画像到底在解决什么问题”“画像和标签是什么关系”“画像如何 ...
2026-04-30在中介效应分析中,人口统计学变量(如年龄、性别、学历、收入、职业等)是常见的控制变量或调节变量,其处理方式直接影响分析结 ...
2026-04-29在SQL数据库实操中,日期数据的存储与显示是高频需求,而“数字日期”(如20240520、20241231、45321)是很多开发者、数据分析师 ...
2026-04-29 很多分析师在设计标签时思路清晰,但真到落地环节却面临“数据在手,不知如何转化为可用标签”的困境:或因加工方式选择不当 ...
2026-04-29在手游行业竞争日趋白热化的当下,“流量为王”早已升级为“留存为王”,而付费用户留存率更是衡量一款手游盈利能力、运营质量的 ...
2026-04-28在日常MySQL数据库运维与开发中,经常会遇到“同一台服务器上,两个不同数据库(以下简称“源库”“目标库”)的表数据需要保持 ...
2026-04-28 很多分析师每天和数据打交道,但当被问到“标签是什么”“标签和指标有什么区别”“标签体系如何设计”时,却常常答不上来。 ...
2026-04-28箱线图(Box Plot)作为一种经典的数据可视化工具,广泛应用于统计学、数据分析、科研实证等领域,核心价值在于直观呈现数据的集 ...
2026-04-27实证分析是社会科学、自然科学、经济管理等领域开展研究的核心范式,其核心逻辑是通过对多维度数据的收集、分析与解读,揭示变量 ...
2026-04-27 很多数据分析师精通Excel函数和数据透视表,但当被问到“数据从哪里来”“表和视图有什么区别”“数据库管理系统和SQL是什么 ...
2026-04-27在大数据技术飞速迭代、数字营销竞争日趋激烈的今天,“精准触达、高效转化、成本可控”已成为企业营销的核心诉求。传统广告投放 ...
2026-04-24在游戏行业竞争白热化的当下,用户流失已成为制约游戏生命周期、影响营收增长的核心痛点。据行业报告显示,2024年移动游戏平均次 ...
2026-04-24 很多业务负责人开会常说“我们要数据驱动”,最后却变成“看哪张报表数据多就用哪个”,往往因为缺乏一套结构性的方法去搭建 ...
2026-04-24在Power BI数据可视化分析中,切片器是连接用户与数据的核心交互工具,其核心价值在于帮助使用者快速筛选目标数据、聚焦分析重点 ...
2026-04-23以数为据,以析促优——数据分析结果指导临床技术改进的实践路径 临床技术是医疗服务的核心载体,其水平直接决定患者诊疗效果、 ...
2026-04-23很多数据分析师每天盯着GMV、DAU、转化率,但当被问到“哪些指标是所有企业都需要的”“哪些指标是因行业而异的”“北极星指标和 ...
2026-04-23在数字化时代,客户每一次点击、浏览、下单、咨询等行为,都在传递其潜在需求与决策倾向——这些按时间顺序串联的行为轨迹,构成 ...
2026-04-22数据是数据分析、建模与业务决策的核心基石,而“数据清洗”作为数据预处理的核心环节,是打通数据从“原始杂乱”到“干净可用” ...
2026-04-22