用交叉验证改善模型的预测表现－着重k重交叉验证-CDA数据分析师官网

热线电话：13121318867

首页精彩阅读用交叉验证改善模型的预测表现－着重k重交叉验证

用交叉验证改善模型的预测表现－着重k重交叉验证

2017-05-25

用交叉验证改善模型的预测表现－着重k重交叉验证

机器学习技术在应用之前使用“训练+检验”的模式（通常被称作”交叉验证“）。

预测模型为何无法保持稳定？

让我们通过以下几幅图来理解这个问题：

此处我们试图找到尺寸（size）和价格（price）的关系。三个模型各自做了如下工作：

第一个模型使用了线性等式。对于训练用的数据点，此模型有很大误差。这样的模型在初期排行榜和最终排行榜都会表现不好。这是“拟合不足”(“Under fitting”）的一个例子。此模型不足以发掘数据背后的趋势。

第二个模型发现了价格和尺寸的正确关系，此模型误差低/概括程度高。

第三个模型对于训练数据几乎是零误差。这是因为此关系模型把每个数据点的偏差（包括噪声）都纳入了考虑范围，也就是说，这个模型太过敏感，甚至会捕捉到只在当前数据训练集出现的一些随机模式。这是“过度拟合”（“Over fitting”）的一个例子。这个关系模型可能在初榜和终榜成绩变化很大。

在应用中，一个常见的做法是对多个模型进行迭代，从中选择表现更好的。然而，最终的分数是否会有改善依然未知，因为我们不知道这个模型是更好的发掘潜在关系了，还是过度拟合了。为了解答这个难题，我们应该使用交叉验证（cross validation）技术。它能帮我们得到更有概括性的关系模型。

实际上，机器学习关注的是通过训练集训练过后的模型对测试样本的分类效果，我们称之为泛化能力。左右两图的泛化能力就不好。在机器学习中，对偏差和方差的权衡是机器学习理论着重解决的问题。

什么是交叉验证？

交叉验证意味着需要保留一个样本数据集，不用来训练模型。在最终完成模型前，用这个数据集验证模型。

交叉验证包含以下步骤：

保留一个样本数据集。－－测试集

用剩余部分训练模型。－－训练集

用保留的数据集（测试集）验证模型。

这样做有助于了解模型的有效性。如果当前的模型在此数据集也表现良好，那就带着你的模型继续前进吧！它棒极了！

交叉验证的常用方法是什么？

交叉验证有很多方法。下面介绍其中几种：

1. “验证集”法

保留 50% 的数据集用作验证，剩下 50% 训练模型。之后用验证集测试模型表现。不过，这个方法的主要缺陷是，由于只使用了 50% 数据训练模型，原数据中一些重要的信息可能被忽略。也就是说，会有较大偏误。

2. 留一法交叉验证 ( LOOCV )

这种方法只保留一个数据点用作验证，用剩余的数据集训练模型。然后对每个数据点重复这个过程。这个方法有利有弊：

由于使用了所有数据点，所以偏差较低。

验证过程重复了 n 次（ n 为数据点个数），导致执行时间很长。

由于只使用一个数据点验证，这个方法导致模型有效性的差异更大。得到的估计结果深受此点的影响。如果这是个离群点，会引起较大偏差。

3.K 层交叉验证(K- fold cross validation)

从以上两个验证方法中，我们学到了：

应该使用较大比例的数据集来训练模型，否则会导致失败，最终得到偏误很大的模型。

验证用的数据点，其比例应该恰到好处。如果太少，会导致验证模型有效性时，得到的结果波动较大。

训练和验证过程应该重复多次（迭代）。训练集和验证集不能一成不变。这样有助于验证模型有效性。

是否有一种方法可以兼顾这三个方面？

答案是肯定的！这种方法就是“ K 层交叉验证”这种方法简单易行。简要步骤如下：

把整个数据集随机分成 K“层”

用其中 K-1 层训练模型，然后用第K层验证。

记录从每个预测结果获得的误差。

重复这个过程，直到每“层”数据都作过验证集。

记录下的k 个误差的平均值，被称为交叉验证误差（cross-validation error）。可以被用做衡量模型表现的标准。

把整个数据集随机分成 K“层”

对于每一份来说：

1).以该份作为测试集，其余作为训练集； (用其中 K-1 层训练模型，然后用第K层验证)

2).在训练集上得到模型；

3).在测试集上得到生成误差，这样对每一份数据都有一个预测结果；(记录从每个预测结果获得的误差)

记录下的 k 个误差的平均值，被称为交叉验证误差（cross-validation error）。可以被用做衡量模型表现的标准

取误差最小的那一个模型。

通常。此算法的缺点是计算量较大。

当 k=10 时，k 层交叉验证示意图如下：

这里一个常见的问题是：“如何确定合适的k值？”

记住，K 值越小，偏误越大，所以越不推荐。另一方面，K 值太大，所得结果会变化多端。K 值小，则会变得像“验证集法”；K 值大，则会变得像“留一法”（LOOCV）。所以通常建议的值是k=10。

如何衡量模型的偏误/变化程度？

K 层交叉检验之后，我们得到 K 个不同的模型误差估算值（e1, e2 …..ek）。理想的情况是，这些误差值相加得 0 。要计算模型的偏误，我们把所有这些误差值相加。平均值越低，模型越优秀。

模型表现变化程度的计算与之类似。取所有误差值的标准差，标准差越小说明模型随训练数据的变化越小。

我们应该试图在偏误和变化程度间找到一种平衡。降低变化程度、控制偏误可以达到这个目的。这样会得到更好的预测模型。进行这个取舍，通常会得出复杂程度较低的预测模型。

Python Code

from sklearn import cross_validation

model = RandomForestClassifier(n_estimators=100)

#简单K层交叉验证，10层。

cv = cross_validation.KFold(len(train), n_folds=10, indices=False)

results = []

# "Error_function" 可由你的分析所需的error function替代

for traincv, testcv in cv:

probas = model.fit(train[traincv], target[traincv]).predict_proba(train[testcv])

results.append( Error_function )

print "Results: " + str( np.array(results).mean() )

R Code

library(data.table)

library(randomForest)

data <- iris

str(data)

#交叉验证，使用rf预测sepal.length

k = 5

data$id <- sample(1:k, nrow(data), replace = TRUE)

list <- 1:k

# 每次迭代的预测用数据框，测试用数据框

# the folds

prediction <- data.table()

testsetCopy <- data.table()

# 写一个进度条，用来了解CV的进度

progress.bar <- create_progress_bar("text")

progress.bar$init(k)

#k层的函数

for(i in 1:k){

# 删除id为i的行，创建训练集

# 选id为i的行，创建训练集

trainingset <- subset(data, id %in% list[-i])

testset <- subset(data, id %in% c(i))

#运行一个随机森林模型

mymodel <- randomForest(trainingset$Sepal.Length ~ ., data = trainingset, ntree = 100)

#去掉回应列1, Sepal.Length

temp <- as.data.frame(predict(mymodel, testset[,-1]))

# 将迭代出的预测结果添加到预测数据框的末尾

prediction <- rbind(prediction, temp)

# 将迭代出的测试集结果添加到测试集数据框的末尾

# 只保留Sepal Length一列

testsetCopy <- rbind(testsetCopy, as.data.frame(testset[,1]))

progress.bar$step()

}

# 将预测和实际值放在一起

result <- cbind(prediction, testsetCopy[, 1])

names(result) <- c("Predicted", "Actual")

result$Difference <- abs(result$Actual - result$Predicted)

# 用误差的绝对平均值作为评估

summary(result$Difference)

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试教材；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试题库；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

▷ 想了解CDA院校合作，点击>>> “院校合作” 了解咨询CDA院校合作；

偏差机器学习泛化能力随机森林

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇图论在大数据分析中的作用！

下一篇CDA认证再升一档！与国家共同推进大数据人才培养标准教育事业！

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

京公网安备 11010802034615号经营许可证编号：京B2-20210330

联系电话：13321103290 (微信同号)

客服在线

立即咨询

客服在线

立即咨询

免密码登录

提交首次登录验证后自动注册

用交叉验证改善模型的预测表现－着重k重交叉验证

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

CDA持证人专访：宋利宝谈电销行业数据运营与数据分 ...

【CDA干货】ARIMA时间序列分析方法：核心原理、建模 ...

从“通用基石”到“场景利器”：CDA数据分析师视角 ...

【CDA干货】SQL Server 提示“实例已在使用”：常见 ...

【CDA干货】Excel数据透视表两列相乘：正确计算方法 ...

从“模糊需求”到“精确标尺”：CDA数据分析师视角 ...

CDA持证人专访：冯卓基谈大数据平台搭建与行业数字 ...

【CDA干货】基于月度数据的送货率提升专项数据分析 ...

从“样本均值”到“总体真相”：CDA数据分析师视角 ...

【CDA干货】指标：量化业务的核心衡量标准与设计指 ...

【CDA干货】Excel透视表计算字段：先乘法后求和汇总 ...

从“杂乱”到“有序”：CDA数据分析师视角下的数据 ...

CDA持证人专访：崔爱军谈地产行业数据治理与数据中 ...

【CDA干货】显著水平与P值的核心区别、关联关系及实 ...

为什么统计是数据分析师的“底层语言”？ ...

【CDA干货】数据分析核心技能体系：从工具落地到业 ...

【CDA干货】企业价值市场法价值比率与线性回归分析 ...

从“零散明细”到“多维洞察”：CDA数据分析师视角 ...

CDA持证人专访：赵君研谈金融行业数据分析与运营岗 ...

【CDA干货】多维度对比评估：分析逻辑与可视化效果 ...

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载