京公网安备 11010802034615号
经营许可证编号:京B2-20210330
我是R语言小白带你建模之adaboost建模
今天更新我用我蹩脚的R技能写的一个adaboost建模的过程,代码有参考别人的代码再根据自己的思路做了更改。代码一部分来自书籍《实用机器学习》,我个人特别喜欢这本书
至于adaboost,大家自动移步谷歌,我跟一个人说我喜欢百度,他误以为我喜欢百度一个公司,所以我决定改口说去谷歌,毕竟谷歌没广告。
先说,模型的数据是我实现已经缺失值填补,以及分组好的数据,所以代码中没有预处理的部分,只有一些简单变量的转化。
代码分为三部分:
1、加载包以及一个简单的变量形式转化,以及训练集和测试的分区,还有初步拟合一个简单的adaboost。
2、设置深度以及树的棵树,希望是,能通过输出的模型评估指标,找到一个复杂度低,但是模型效果相对较好的adaboost。
3、检查你取的最优的adaboost的模型的泛化能力,这里是通过把数据集变成十等份,用刚才拟合出来的adaboost模型计算其ks、auc、正确率啊,看时候会不会过拟合造成在其他数据集中的效果下降。
这可能是我这么久以来这么正经的写R代码,所以我的注释特别多,不像我的sas代码,基本不写注释。
1
rm(list=ls())
# 清空缓存数据
rpart.installed <- 'rpart' %in% rownames(installed.packages())
if (rpart.installed) {
print("the rpart package is already installed, let's load it...")
}else {
print("let's install the rpart package first...")
install.packages('rpart', dependencies=T)
}
#检查是否存在rpart包,若没有就加载
library('rpart')
partykit.installed <- 'partykit' %in% rownames(installed.packages())
if (partykit.installed) {
print("the partykit package is already installed, let's load it...")
}else {
print("let's install the partykit package first...")
install.packages('partykit', dependencies=T)
}
#检查是否存在partykit包,若没有就加载
library('grid')
library('partykit')
adabag.installed <- 'adabag' %in% rownames(installed.packages())
if (adabag.installed) {
print("the adabag package is already installed, let's load it...")
}else {
print("let's install the adabag package first...")
install.packages('adabag', dependencies=T)
}
library('adabag')
library('rpart')
library('gplots')
library('ROCR')
# 加载在代码中需要使用的包
x<-read.csv("alldata_zuhe.csv",header=T);
#读目标数据,读取数据之前,手动加载路径
D<-as.data.frame(x)
#把x数据转成数据框
D$APPL_STATUS_1<-as.factor(D$APPL_STATUS_1)
# 把目标变量转成因子格式,以防模型拟合的时候识别为连续变量建立回归树
# colnames(D)[ncol(D)] <- 'APPL_STATUS_1'
D<-D[-which(names(D) %in% c('APPL_ID'))]
# 剔除掉一些不用进入模型的变量
train_ratio <- 0.7
# 设置训练集以及测试集的比例,这里设置的是3:7
n_total <- nrow(D)
# 取出原样本数据集的数量
n_train <- round(train_ratio * n_total)
# 计算出训练集的数量
n_test <- n_total - n_train
# 计算出测试集的数量
set.seed(42)
# 设置抽取种子,种子的意义在于当取同个种子的时候,抽取的样本一样。
list_train <- sample(n_total, n_train)
# 利用sample函数取数测试集的样本的行数
D_train <- D[list_train,]
# 从原样本中取出训练数据
D_test <- D[-list_train,]
# 从原样本中取出测试集数据
y_train <- D_train$APPL_STATUS_1
# 取数训练集中的因变量,待会对模型的评估需要用到
y_test <- D_test$APPL_STATUS_1
# 取数测试集中的因变量,待会对模型的评估需要用到
maxdepth <- 3
# 设置树的深度,利用rpart.control带着深度的向量,也可以直接写上深度,
# 设置在提升树过程中的树的深度
mfinal <- 10
# 设置树的数量
M_AdaBoost1 <- boosting(APPL_STATUS_1~., data = D_train,
boos = FALSE, mfinal = mfinal, coeflearn = 'Breiman',
control=rpart.control(maxdepth=maxdepth))
summary(M_AdaBoost1)
# 输出对象的M_AdaBoost1的信息,大概是种了几棵树,几个客户预测错了之类的。
M_AdaBoost1$trees
# 看下你种下的十棵树的大致情况。
M_AdaBoost1$trees[[1]]
# 检查第一颗树的情况,你检查也是看他合不合理,尽管不合理,只要效果好,
# 你还是会用,毕竟又不是只有一棵树。
M_AdaBoost1$weights
# 检查每棵树的权重
M_AdaBoost1$importance
# 看下变量的重要性。可以利用这个方法去筛选变量。
errorevol(M_AdaBoost1, D_test)
# 看下误差的演变
y_test_pred_AdaBoost1 <- predict(M_AdaBoost1, D_test)
# 使用模型预测测试集的效果。这里输出有概率也有预测分类,
# y_test_pred_AdaBoost1是个list的对象,跟拒想算的模型评估量选择计算。
accuracy_test_AdaBoost1 <- sum(y_test==y_test_pred_AdaBoost1$class) / n_test
# 计算正确率,即使用预测客户状态
msg <- paste0('accuracy_test_AdaBoost1 = ', accuracy_test_AdaBoost1)
print(msg)
# 输出正确率的结果
y_train_pred_AdaBoost1 <- predict(M_AdaBoost1, D_train)
# 使用模型预测训练集的效果
accuracy_train_AdaBoost1 <- sum(y_train==y_train_pred_AdaBoost1$class) / n_train
msg <- paste0('accuracy_train_AdaBoost1 = ', accuracy_train_AdaBoost1)
print(msg)
# 计算正确率之后,输出正确率的结果。
2
# 这个代码是为了寻找最优的种树的数目以及深度,因为了防止过拟合以及节省时间,这里的深度我建议设置的是2:5
# 树的数目大概是10-50课,数可能多了,但是模型复杂度也提升了,泛化能力就低了。
library(plyr)
# 加载需要的包
total1<-data.frame()
# 建立一个空表,待会这个表是用来装结果的
m <- seq(5, 30, by = 5)
# 设置树的数量,我这里设置的是从5棵树开始,到30棵树,以5为单位。
for (j in m) {
# 循环树的数量
for(i in 3:6){
# 这里设置深度循环的数字,我设置的3到6
maxdepth <- i
mfinal <- j
M_AdaBoost1 <- boosting(APPL_STATUS_1~., data = D_train,boos = FALSE, mfinal = mfinal, coeflearn = 'Breiman',control=rpart.control(maxdepth=maxdepth))
# 设置参数之后生成模型
y_test_pred_AdaBoost1 <- predict(M_AdaBoost1, D_test)
# 利用生成的模型预测测试集
accuracy_test <- sum(D_test$APPL_STATUS_1==y_test_pred_AdaBoost1$class) / length(y_test_pred_AdaBoost1$class)
# 计算正确率
pred<-prediction(y_test_pred_AdaBoost1$prob[,2],y_test)
perf<-performance(pred,'tpr','fpr')
auc1 <-performance(pred,'auc')@y.values
#计算AUC值
v = as.vector(unlist(auc1[1]))
# 因为AUC值不是一个向量的格式,但是我后续需要组成数据框,所以在这里转成向量了
ks1 <- max(attr(perf,'y.values')[[1]]-attr(perf,'x.values')[[1]])
#计算KS
total<-data.frame(auc=v,ks=ks1,accuracy=accuracy_test,maxdepth=i,mfinal=j)
# 将多个模型评估指标合并变成数据框
total1<-rbind(total1,total)
# 纵向合并
print(paste("adaboost-maxdepth:", i))
print(paste("adaboost-mfinal:", j))
# 打印循环哪一步,以防报错的时候可以直达是哪一步错误,以及跟踪进度跑到那里了
}
}
结果跑出看total1这个数据集,图:
第一列是auc,依次是ks,正确率,设置的树的深度,以及种的棵树。可以根据这张表选出你认为好的深度以及树的棵树
3
M_AdaBoost1 <- boosting(APPL_STATUS_1~., data = D_train,
boos = FALSE, mfinal = 15, coeflearn = 'Breiman',
control=rpart.control(maxdepth=3))
# 在刚才的adaboost取最优参数取出最优的树以及深度之后,在这里跑出模型之后,用在其他模型上面
# 因为集成模型大部分时候都是一个类似黑箱子的过程,你是知道几棵树,深度多少,但是实际上,你并不能
# 像逻辑回归一样一颗一颗树去看他合不合理,所以这时候就需要就检查他对其他数据是不是也可行,且效果
# 不会下降太多
library(plyr)
# 加载需要的包
CVgroup <- function(k, datasize, seed) {
cvlist <- list()
set.seed(seed)
n <- rep(1:k, ceiling(datasize/k))[1:datasize]
#将数据分成K份,并生成的完整数据集n
temp <- sample(n, datasize)
#把n打乱
x <- 1:k
dataseq <- 1:datasize
cvlist <- lapply(x, function(x) dataseq[temp==x])
#dataseq中随机生成10个随机有序数据列
return(cvlist)
}
cvlist<-CVgroup(10, 10513, 957445)
# 这个过程第二个参数输入的是你的数据集的总数,第三个是seed种子,第一个是划分成几份。
# cvlist是一个list,包含十个样本,每个样本的数量差不多
data <- D
# 将的原样本数据集赋给data
total1 <- data.frame()
#建立一个空表存储预测结果
for (i in 1:10) {
# 循环上面那个代码分好的是个数据集
print(i)
test <- data[cvlist[[i]],]
# 取出第i个数据集
y_test<-test$APPL_STATUS_1
# 取出第i个数据集中的因变量
y_test_pred_rf1 <- predict(M_AdaBoost1, test)
# 预测第i个数据集
accuracy_test <- sum(test$APPL_STATUS_1==y_test_pred_rf1$class) / length(y_test_pred_rf1$class)
# 计算第i个数据集的正确率
pred<-prediction(y_test_pred_rf1$prob[,2],y_test)
perf<-performance(pred,'tpr','fpr')
auc1 <- performance(pred,'auc')@y.values
v = as.vector(unlist(auc1[1]))
#计算第i个数据集的AUC值
ks1 <- max(attr(perf,'y.values')[[1]]-attr(perf,'x.values')[[1]]) #计算KS
#计算第i个数据集的ks值
total<-data.frame(auc=v,ks=ks1,accuracy=accuracy_test)
# 合并各项参数
total1<-rbind(total1,total)
# 合并每个数据集的结果
}
这个代码跑完之后看total1,图:
这就是你选出的模型,将总体数据分成十份每一份的ks以及auc,你要是觉得不可靠,可以多循环几次种子。要是觉得你选的模型不好,可以回去第二步再选一个放到第三步的代码跑。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
【核心关键词】软件、洞察力、大数据、产品、经验、硬件、流量、创新、决策、数据安全、网络安全、数据分析、决策制定、数据挖 ...
2026-06-18在方案选型、效果复盘、产品评估、供应商筛选等各类业务决策场景中,仅凭单一指标下结论往往会陷入 “以偏概全” 的误区。多维度 ...
2026-06-18 很多数据分析师精通Excel单元格操作,但当被问到“表结构数据的基本处理单位是什么”“字段和记录的本质区别”“为什么表结 ...
2026-06-18在数据分析、用户运营与业务增长的工作体系中,漏斗拆解是最基础也最高频的问题定位方法。很多业务场景下,我们只能看到最终的转 ...
2026-06-17在数据库开发、数据清洗与报表统计场景中,数值类型转换为日期是高频刚需操作。业务系统常以 Unix 时间戳、整型日期(如20240617 ...
2026-06-17 数据分析师八成以上的时间在和数据表格打交道,但许多人拿到Excel后习惯性地先算、先分析,结果回头发现漏了一列关键数据, ...
2026-06-17【核心关键词】数据库、电商、知识、产品、数据产品、监管业务、产品经理、业务系统、用户行为分析、用户分析、数据分析、电商 ...
2026-06-16在 Python 动态类型与面向对象的编程体系中,变量定义与类实例化是构建代码逻辑的两大核心基石。变量是数据存储、传递与运算的基 ...
2026-06-16 很多数据分析师每天与Excel打交道,但当被问到“表格结构数据和表结构数据有什么区别”“数据类型误判会引发哪些分析错误” ...
2026-06-16在 MySQL 查询性能优化体系中,索引是降低查询耗时、提升数据库吞吐的核心手段。其中联合索引与覆盖索引是实际开发中最高频的两 ...
2026-06-15在数据仓库建设与商业智能分析体系中,维度建模是应用最广泛的建模方法论,而事实表与维度表是维度建模的两大核心构件,共同构成 ...
2026-06-15 很多数据分析师能熟练计算指标,但当被问到“这家企业的核心业务目标是什么”“如何把模糊的战略目标拆解为可量化的指标”“ ...
2026-06-15在数据分析、业务监控、运营复盘等场景中,列值趋势计算是核心需求之一。无论是分析销售额的月度增长、用户活跃的变化趋势、库存 ...
2026-06-12在数字经济深度渗透的当下,消费者的购买行为已从过去的 “被动接受” 转变为 “主动决策”。流量红利消退、获客成本攀升、用户 ...
2026-06-12CDA三级认证是三个级别中的塔尖,全面考察数据战略、团队领导和复杂项目的综合能力。它所对应的《敏捷数据挖掘》教材,不再局限 ...
2026-06-12在游戏产业的商业逻辑中,付费玩家是支撑游戏生存与发展的核心支柱。行业普遍遵循 “二八定律”:20% 的付费玩家贡献了游戏 80% ...
2026-06-11【核心关键词】企业、定位、传统、产品、互联网、可视化、业务侧、数字化、结构化、数据分析、传统制造业、市场状态、发展空间 ...
2026-06-11 解读《CDA二级教材:量化策略分析(2025)》的全景结构与学习逻辑 ” CDA二级认证是企业招聘数据分析师时最常提及的证书门槛 ...
2026-06-11【核心关键词】药企、可视化、营销、分类、数据分析师、销售数据、业务人员、指导方向、分析报告、营销数据、营销医生 【专访摘 ...
2026-06-10在统计学分析、问卷调研、实验验证、业务复盘等场景中,卡方检验与 T 检验是应用最广泛的两类基础假设检验方法。前者专门处理分 ...
2026-06-10