用R软件做分类树和回归树（CART）-CDA数据分析师官网

热线电话：13121318867

用R软件做分类树和回归树（CART）

2018-05-29

用R软件做分类树和回归树（CART）

决策树（Decision Tree）又称为判定树，是运用于分类的一种树结构。其中的每个内部结点（internal node）代表对某个属性的一次测试，每条边代表一个测试结果，叶结点（leaf）代表某个类（class）或者类的分布（class distribution），最上面的结点是根结点。决策树提供了一种展示类似在什么条件下会得到什么值这类规则的方法。

构造决策树是采用自上而下的递归构造方法。以多叉树为例，如果一个训练数据集中的数据有几种属性值，则按照属性的各种取值把这个训练数据集再划分为对应的几个子集（分支），然后再依次递归处理各个子集。反之，则作为叶结点。

决策树构造的结果是一棵二叉或多叉树，它的输入是一组带有类别标记的训练数据。二叉树的内部结点（非叶结点）一般表示为一个逻辑判断，如形式为(a = b)的逻辑判断，其中a 是属性，b是该属性的某个属性值；树的边是逻辑判断的分支结果。多叉树（ID3）的内部结点是属性，边是该属性的所有取值，有几个属性值，就有几条边。树的叶结点都是类别标记。

使用决策树进行分类分为两步：

第1步：利用训练集建立并精化一棵决策树，建立决策树模型。这个过程实际上是一个从数据中获取知识，进行机器学习的过程。

第2步：利用生成完毕的决策树对输入数据进行分类。对输入的记录，从根结点依次测试记录的属性值，直到到达某个叶结点，从而找到该记录所在的类。

问题的关键是建立一棵决策树。这个过程通常分为两个阶段：

第一阶段，建树（Tree Building）：决策树建树算法见下，这是一个递归的过程，最终将得到一棵树。

第二阶段，剪枝（Tree Pruning）：剪枝的目的是降低由于训练集存在噪声而产生的起伏。

分类树和回归树（CART:Classification and Regression）

描述给定预测变量X后，变量Y条件分布的一种方法，使用二叉树将预测空间递归地划分为若干个子集，Y在这些子集上的分布是连续均匀的，树中的叶节点对应着划分的不同区域，划分是由与每个内部节点相关的分支规则（Splitting rules）确定的.通过从树的根节点逐渐到叶节点移动，每个预测样本被赋予一个叶节点，Y在该节点上的分布也被确定。利用CART进行预测同样需要一个学习样本（训练样本）对CART进行建树和评估，然后利用其进行预测。以下面的数据结构为例：

其中，为属性变量，可以是连续或离散的；为类别变量，当为离散时该模型为分类树，当为有序变量时，模型为回归树。

根据给定的训练样本进行建模的步骤主要有：

使用构建树，使得中每个叶节点要么很小（节点内所含样本数小于给定的值），要么是纯节点（节点内部样本的属性一样），要么只有唯一属性变量作为分支选择。
使用修剪算法构建一个有限的节点数递减有序子树序列
使用评估算法从（2）步中产生的子树序列中选择一棵最优树作为最终的决策树。

CART的原理或细节，相关数据挖掘或机器学习书籍都有阐述，另外，百度了相关博客，个人感觉RaySaint的博客把握了CART的关键因素。详见：

http://underthehood.blog.51cto.com/2531780/564685

R软件完成CART

分类树

#1调用rpart包进行CART建模

library(rpart)

#1前列腺癌数据stagec

head(stagec)

progstat = factor(stagec$pgstat, levels = 0:1, labels = c("No", "Prog"))

#2建树,method主要有 "anova", "poisson", "class" "exp"。通常作生存分析选exp,因变量是因子变量选class,作poisson回归选poisson,其他情况通常选择anova;

cfit = rpart(progstat ~ age + eet + g2 + grade + gleason + ploidy,data = stagec, method ='class')

#输出结果

print(cfit)

#作树图

par(mar = rep(0.1, 4))

plot(cfit)

#添加标签

text(cfit)

#对分类结果作混淆矩阵

(temp = with(stagec, table(cut(grade, c(0, 2.5, 4)),

cut(gleason, c(2, 5.5, 10)),exclude = NULL)))

#3剪枝

cfit2=prune(cfit,cp=.02)

plot(cfit2)

text(cfit2)

printcp(cfit2)#输出剪枝表格

summary(cfit2)#输出CART完整细节，包括printcp内容

#4rpart中相关参数，rpart(,..,parms=())

"Anova"分类没有参数

"Poisson"分类只有单一参数：率的先验分布的变异系数，默认为1

"Exp"分类参数同poisson

"Class"分类包含的参数最为复杂，包括先验概率、损失矩阵或分类指标（Gini或Information）。#4.1比较Gini和Information分类指标，以自带汽车消费数据为例cu.summary

head(cu.summary)#查阅数据

fit1 = rpart(Reliability ~ Price + Country + Mileage + Type, data = cu.summary, parms = list(split = 'gini'))

fit2 = rpart(Reliability ~ Price + Country + Mileage + Type,data = cu.summary, parms = list(split = 'information'))

par(mfrow = c(1,2), mar = rep(0.1, 4))

plot(fit1, margin = 0.05); text(fit1, use.n = TRUE, cex = 0.8)

plot(fit2, margin = 0.05); text(fit2, use.n = TRUE, cex = 0.8)

#4.2比较parms中的先验概率（prior）和损失矩阵（loss）参数，以rpart自带驼背数据kyphosis为例

#查阅数据

head(kyphosis)

#默认的先验概率为Kyphosis两类的频率比fit1 = rpart(Kyphosis ~ Age + Number + Start, data = kyphosis)#定义先验概率prior=c(..,..)fit2 = rpart(Kyphosis ~ Age + Number + Start, data = kyphosis, parms = list(prior = c(0.65, 0.35)))

##loss参数设置，首先一个损失矩阵lmat

lmat = matrix(c(0,3, 4,0), nrow = 2, ncol = 2, byrow = FALSE)fit3 = rpart(Kyphosis ~ Age + Number + Start, data = kyphosis,parms = list(loss = lmat))par(mfrow = c(1, 3), mar = rep(0.1, 4))plot(fit1); text(fit1, use.n = TRUE, all = TRUE, cex = 0.8)plot(fit2); text(fit2, use.n = TRUE, all = TRUE, cex = 0.8)plot(fit3); text(fit3, use.n = TRUE, all = TRUE, cex = 0.8)

二、回归树

1.通常默认anova用来作回归树，以汽车消费数据car90为例,该数据包括34个变量110条观察值。

#查阅car90数据

head(car90);str(car90)

#剔除轮胎尺寸、型号等3个因素型变量(factor variable):"Rim", "Tires", "Model2"

cars = car90[, -match(c("Rim", "Tires", "Model2"), names(car90))]#建立回归树模型carfit = rpart(Price/1000 ~ ., data=cars)carfit;printcp(carfit);summary(carfit,cp=0.1)plot(carfit);text(carfit)

#图示不同分类的误差,par(mfrow=c(1,2)); rsq.rpart(carfit)

2.Poisson回归树

以数据solder为例

#查看数据，变量属性

head(solder);str(solder)

#建立poisson回归树

sfit = rpart(skips ~ Opening + Solder + Mask + PadType + Panel,data = solder, method = 'poisson',control = rpart.control(cp = 0.05, maxcompete = 2))sfit;printcp(sfit);summary(sfit,cp=.1)

3.生存模型回归树

#以前列腺癌数据stagec为例，调用survival包进行生存分析

library(survival)temp = coxph(Surv(pgtime, pgstat) ~ 1, stagec)newtime = predict(temp, type = 'expected')

pfit <- rpart(Surv(pgtime, pgstat) ~ age + eet + g2 + grade +gleason + ploidy, data = stagec)

pfit2 <- prune(pfit, cp = 0.016)#进行减枝

par(mar = rep(0.2, 4))

plot(pfit2, uniform = TRUE, branch = 0.4, compress = TRUE)

text(pfit2, use.n = TRUE)

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试教材；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试题库；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

▷ 想了解CDA院校合作，点击>>> “院校合作” 了解咨询CDA院校合作；

决策树先验概率机器学习混淆矩阵 D3 数据挖掘

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇使用R语言进行协整关系检验

下一篇Python实现将json文件中向量写入Excel的方法

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

京公网安备 11010802034615号经营许可证编号：京B2-20210330

联系电话：13321103290 (微信同号)

客服在线

立即咨询

客服在线

立即咨询

免密码登录

提交首次登录验证后自动注册

用R软件做分类树和回归树（CART）

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

【CDA干货】聚类分析与主成分分析（PCA）核心区别全 ...

【CDA干货】K-Means++初始化方法全解析：原理、实操 ...

CDA数据分析师：以专业能力搭建高效指标体系，赋能 ...

CDA一级知识点汇总手册：第5章业务数据的特征、处 ...

CDA一级知识点汇总手册：第4章战略与业务数据分析 ...

CDA一级知识点汇总手册：第3章商业数据分析框架 ...

CDA一级知识点汇总手册：第2章数据分析方法 ...

CDA一级知识点汇总手册：第1章数据分析思维 ...

【CDA干货】统计模型的分类与应用场景全解析：从理 ...

【CDA干货】SELECT * 与指定个别字段查询效率深度分 ...

指标体系：CDA数据分析师的核心能力载体，用体系化 ...

【CDA干货】Power BI函数大全：分类、实操与实战全 ...

【CDA干货】次日留存率计算公式：原理、实操与应用 ...

指标的基本概念：CDA数据分析师的实操根基与洞察抓 ...

【CDA干货】随机森林特征重要性：原理、实操与应用 ...

【CDA干货】MySQL按日期分组：保证每天都有数据，无 ...

描述性统计：CDA数据分析师的入门必修课，让数据特 ...

【马年宠粉｜集赞0元领】转发CDA真题海报，水杯/颈 ...

【CDA干货】Anaconda下载库慢？3种实操方法，彻底解 ...

【CDA干货】Tableau两表未连接部分显示0而非Null： ...

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载

用R软件做分类树和回归树（CART）

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

【CDA干货】聚类分析与主成分分析（PCA）核心区别全 ...

【CDA干货】K-Means++初始化方法全解析：原理、实操 ...

CDA数据分析师：以专业能力搭建高效指标体系，赋能 ...

CDA一级知识点汇总手册：第5章 业务数据的特征、处 ...

CDA一级知识点汇总手册：第4章 战略与业务数据分析 ...

CDA一级知识点汇总手册：第3章 商业数据分析框架 ...

CDA一级知识点汇总手册：第2章 数据分析方法 ...

CDA一级知识点汇总手册：第1章 数据分析思维 ...

【CDA干货】统计模型的分类与应用场景全解析：从理 ...

【CDA干货】SELECT * 与指定个别字段查询效率深度分 ...

指标体系：CDA数据分析师的核心能力载体，用体系化 ...

【CDA干货】Power BI函数大全：分类、实操与实战全 ...

【CDA干货】次日留存率计算公式：原理、实操与应用 ...

指标的基本概念：CDA数据分析师的实操根基与洞察抓 ...

【CDA干货】随机森林特征重要性：原理、实操与应用 ...

【CDA干货】MySQL按日期分组：保证每天都有数据，无 ...

描述性统计：CDA数据分析师的入门必修课，让数据特 ...

【马年宠粉｜集赞0元领】转发CDA真题海报，水杯/颈 ...

【CDA干货】Anaconda下载库慢？3种实操方法，彻底解 ...

【CDA干货】Tableau两表未连接部分显示0而非Null： ...

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载

CDA一级知识点汇总手册：第5章业务数据的特征、处 ...

CDA一级知识点汇总手册：第4章战略与业务数据分析 ...

CDA一级知识点汇总手册：第3章商业数据分析框架 ...

CDA一级知识点汇总手册：第2章数据分析方法 ...

CDA一级知识点汇总手册：第1章数据分析思维 ...