京公网安备 11010802034615号
经营许可证编号:京B2-20210330
r语言做决策树代码实现
0.节点和结点的区别:节点为两线相交,不为终点;而结点为两线相交为终点,没有延伸;
1.分支节点:它指向其他的节点,所以是度不为0的节点。 vs 叶子结点:度为0的结点
2.度:结点拥有的子树数;就是说这个结点下面有几条分支
3.树的深度:树有几层
4.10折交叉验证:常用的测试算法准确性的方法。
将数据集分成10份,轮流将其中9份作为训练数据,1份作为测试数据,进行试验
每次试验都会得出相应的正确率,10次结果的正确率取平均值就作为算法精度的估计,一般还需进行多次10折交叉验证,再求均值
为什么取10折?因为很多理论证明了10折是获得最好误差估计的恰当选择。

#第1步:工作目录和数据集的准备
setwd("C:/Users/IBM/Desktop/170222分类树建模/2.23建模")#设定当前的工作目录,重要!
audit2<-read.csv("model2.csv",header=T)
str(audit2) #转成字符串类型的
#第2步:做训练集和测试集
set.seed(1)
sub<-sample(1:nrow(audit2),round(nrow(audit2)*2/3))
length(sub)
data_train<-audit2[sub,]#取2/3的数据做训练集
data_test<-audit2[-sub,]#取1/3的数据做测试集
dim(data_train)#训练集行数和列数13542 23
dim(data_test) #测试集的行数和列数6771 23
table(data_train$是否转化) #看该列分布的
table(data_test$是否转化)
#做决策树模型。首先对树参数进行设置,再建模
## rpart.control对树进行一些设置
## xval是10折交叉验证
## minsplit是最小分支节点数,这里指大于等于20,那么该节点会继续分划下去,否则停止
## minbucket:叶子节点最小样本数,这里设置100,可以调参
## maxdepth:树的深度
## cp全称为complexity parameter,指某个点的复杂度,对每一步拆分,模型的拟合优度必须提高的程度
#加载程序包和一些参数设定
library(rpart)
ct<-rpart.control(xval=10,minsplit=20,minbucket=150,cp=0.00017)
#rapart包中的raprt函数来做决策树
#na.action:缺失数据的处理,默认为删因变量缺失保留自变量缺失
#method:树的末端数据类型选择相应的变量分割方法:
# 连续性method=“anova”,离散型method=“class”,计数型method=“poisson”,生存分析型method=“exp”
#parms:用来设置三个参数:先验概率、损失矩阵、分类纯度的度量方法(gini和information)
#第3步:建模,观察模型结果
library(rpart)
tree.both<-rpart(as.factor(是否转化)~ .,data=data_train,method='class',minsplit=20,minbucket=150,cp=0.00017)
summary(tree.both)
tree.both$variable.importance
printcp(tree.both)
plotcp(tree.both,lwd=2)
#第4步:画决策树
#画决策树第1种方法,画出来的树比较简单
par(mfrow=c(1,3))
plot(tree.both)
text(tree.both,use.n=T,all=T,cex=0.9)
#画决策树第2种方法,画出来的树稍微好看些
library(rpart.plot)
rpart.plot(tree.both,branch=1,shadow.col="gray",box.col="green",border.col="blue",split.col="red",split.cex=1.2,main="决策树")
#第5步:剪枝
#rpart包提供了一种剪枝方法--复杂度损失修剪的修剪方法
#printcp这个函数会告诉你分裂到的每一层,对应的cp是多少,平均相对误差是多少
#xerror:交叉验证的估计误差;xstd:标准误差;xerror±xstd平均相对误差
printcp(tree.both)
#我们使用具有最小交叉验证误差的cp
cp=tree.both$cptable[which.min(tree.both$cptable[,"xerror"]),"CP"]
cp #cp=0.00049
#第6步:剪枝之后的树再画图
tree.both2<-prune(tree.both,cp=tree.both$cptable[which.min(tree.both$cptable[,"xerror"]),"CP"])
summary(tree.both2)
tree.both2$variable.importance
printcp(tree.both2)
plotcp(tree.both2,lwd=2)
library(rpart.plot)
rpart.plot(tree.both2,branch=1,shadow.col="gray",box.col="green",border.col="blue",split.col="red",split.cex=1.2,main="决策树")
#第7步:输出规则。剪枝后的决策树规则,从规则中再发现规律
library(rattle)
asRules(tree.both2)
#第8步:在测试集上做预测
library(pROC)
pred.tree.both<-predict(tree.both,newdata=data_test)
#第9步,看测试的效果,预测正确的有多少,预测错误的有多少
predictScore<-data.frame(pred.tree.both)
rownames(predictScore) #看这个矩阵行的名字
colnames(predictScore)#看这个矩阵列的名字
predictScore$是否转化<-'ok' #在预测的矩阵后面多加一列‘是否转化’2,全部都是2
predictScore[predictScore$FALSE.>predictScore$TRUE.,][,"是否转化"]=FALSE #如果false的概率大于true的概率,那么判断为false
predictScore[predictScore$FALSE.<=predictScore$TRUE.,][,"是否转化"]=TRUE
n<-table(data_test$是否转化,predictScore$是否转化)
n #看分布情况
percantage<-c(n[1,1]/sum(n[1,]),n[2,2]/sum(n[2,]))
percantage
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在MySQL数据库日常查询、数据统计、后台接口开发、数据导出等场景中,开发者经常需要查询数据表除某几列之外的所有字段。例如查 ...
2026-06-09在Python网络请求、爬虫开发、接口测试、数据抓取等实操场景中,requests库是最常用的第三方请求工具,而content属性是requests ...
2026-06-09 数据分析正在重塑每一个行业。CDA认证的三本官方教材,分别对应Level I、Level II、Level III,为你铺就从业务数据分析到数 ...
2026-06-09在数字财务、智慧财税、业财融合深度推进的当下,传统财务模式下数据标准混乱、业务流程碎片化、知识无法沉淀、系统互通性差等问 ...
2026-06-08随着数字经济深度渗透各行各业,数据正式成为继土地、劳动力、资本、技术之后的第五大生产要素,是企业数字化转型、精细化运营、 ...
2026-06-08 很多数据分析师能熟练写SQL、做透视表,但当被问到“数据是从哪里来的?经过哪些加工才进入数据仓库?ETL具体做了什么?”时 ...
2026-06-08【核心关键词】贷款、报表、课程、专业、建模、缺失值、营销、互联网、银行、办公自动化、数据分析、数据预处理、特征工程、贷 ...
2026-06-05在数据库数据查询、业务报表统计、多表关联分析中,LEFT JOIN左连接是使用率最高的SQL关联查询语句。其核心特性是保留左表全部数 ...
2026-06-05 很多数据分析师能熟练地写SQL、做透视表、算描述性统计,但当被问到“如何预测用户流失概率”“如何归因销量下滑的关键因素 ...
2026-06-05任何一款产品从诞生、普及到最终退出市场,都会遵循一套固定的发展规律,这就是产品生命周期理论。在市场竞争日益激烈、产品迭代 ...
2026-06-04在Excel数据分析、办公统计、业务报表制作场景中,数据透视表是数据汇总、分类统计、快速复盘的核心工具,能够高效完成海量原始 ...
2026-06-04 很多数据分析师拿到数据就开始清洗、建模,但当被问到“这批数据属于什么类型——结构化还是非结构化?分类变量还是数值变量 ...
2026-06-04在问卷调查与社会科学数据分析中,卡方检验是最常用、最基础的非参数检验方法,广泛应用于市场调研、用户分析、行为统计、满意度 ...
2026-06-03【核心关键词】贷款、报表、课程、专业、建模、缺失值、营销、互联网、银行、办公自动化、数据分析、数据预处理、特征工程、贷 ...
2026-06-03 很多数据分析师画过趋势图、做过业绩预测,但当被问到“这个月销售额增长20%,到底是长期趋势自然增长,还是促销活动的短期 ...
2026-06-03逻辑回归是数据分析、机器学习、统计建模中应用最广泛的二分类预测模型,常用于风险判断、行为预测、归因分析等场景。在SPSS、Py ...
2026-06-02数字经济时代,市场竞争日趋同质化,用户消费需求愈发个性化、多元化,传统依托经验、粗放式、广撒网的营销模式弊端日益凸显。长 ...
2026-06-02 很多数据分析师做过按月份的销售额趋势图,画过按天的流量折线图,但当被问到“时间序列和普通数据有什么本质区别”“季节性 ...
2026-06-02在市场竞争日趋饱和、用户需求不断细分的当下,企业创业创新、产品迭代与市场拓展不再依赖经验决策,而是需要系统化、工具化的商 ...
2026-06-01【核心关键词】调度、岗位、数据库、企业、报表、培训、程序、数据分析、数据加工、业务部门、企业数据、调度工具、业务指标、 ...
2026-06-01