数据挖掘中易犯的11大错误(2)-CDA数据分析师官网

热线电话：13121318867

首页精彩阅读数据挖掘中易犯的11大错误(2)

数据挖掘中易犯的11大错误(2)

2015-11-30

数据挖掘中易犯的11大错误(2)

4a.投机取巧的数据：数据本身只能帮助分析人员找到什么是显著的结果，但它并不能告诉你结果是对还是错。

4b.经过设计的实验：某些实验设计中掺杂了人为的成分，这样的实验结果也常常不可信。

5. 使用了未来的信息（Accept Leaks from the Future）

IDMer：看似不可能，却是实际中很容易犯的错误，特别是你面对成千上万个变量的时候。认真、仔细、有条理是数据挖掘人员的基本要求。

预报（Forecast）示例：预报芝加哥银行在某天的利率，使用神经网络建模，模型的准确率达到95%。但在模型中却使用了该天的利率作为输入变量。

金融业中的预报示例：使用3日的移动平均来预报，但却把移动平均的中点设在今天。

解决方法：

要仔细查看那些让结果表现得异常好的变量，这些变量有可能是不应该使用，或者不应该直接使用的。

给数据加上时间戳，避免被误用。

6. 抛弃了不该忽略的案例（Discount Pesky Cases）

IDMer：到底是“宁为鸡头，不为凤尾”，还是“大隐隐于市，小隐隐于野”？不同的人生态度可以有同样精彩的人生，不同的数据也可能蕴含同样重要的价值。

异常值可能会导致错误的结果（比如价格中的小数点标错了），但也可能是问题的答案（比如臭氧洞）。所以需要仔细检查这些异常。

研究中最让激动的话语不是“啊哈！”，而是“这就有点奇怪了……”

数据中的不一致性有可能会是解决问题的线索，深挖下去也许可以解决一个大的业务问题。

例如：

在直邮营销中，在对家庭地址的合并和清洗过程中发现的数据不一致，反而可能是新的营销机会。

解决方法：

可视化可以帮助你分析大量的假设是否成立。

7. 轻信预测（Extrapolate）

IDMer：依然是辩证法中的观点，事物都是不断发展变化的。

人们常常在经验不多的时候轻易得出一些结论。

即便发现了一些反例，人们也不太愿意放弃原先的想法。

维度咒语：在低维度上的直觉，放在高维度空间中，常常是毫无意义的。

解决方法：

进化论。没有正确的结论，只有越来越准确的结论。

8. 试图回答所有问题（Answer Every Inquiry）

IDMer：有点像我爬山时鼓励自己的一句话“我不知道什么时候能登上山峰，但我知道爬一步就离终点近一步。”

“不知道”是一种有意义的模型结果。

模型也许无法100%准确回答问题，但至少可以帮我们估计出现某种结果的可能性。

9. 随便地进行抽样（Sample Casually）

9a 降低抽样水平。例如，MD直邮公司进行响应预测分析，但发现数据集中的不响应客户占比太高（总共一百万直邮客户，其中超过99%的人未对营销做出响应）。于是建模人员做了如下抽样：把所有响应者放入样本集，然后在所有不响应者中进行系统抽样，即每隔10人抽一个放入样本集，直到样本集达到10万人。但模型居然得出如下规则：凡是居住在Ketchikan、Wrangell和Ward Cove Alaska的人都会响应营销。这显然是有问题的结论。（问题就出在这种抽样方法上，因为原始数据集已经按照邮政编码排序，上面这三个地区中不响应者未能被抽取到样本集中，故此得出了这种结论）。

解决方法：“喝前摇一摇！”先打乱原始数据集中的顺序，从而保证抽样的随机性。

9b 提高抽样水平。例如，在信用评分中，因为违约客户的占比一般都非常低，所以在建模时常常会人为调高违约客户的占比（比如把这些违约客户的权重提高5倍）。建模中发现，随着模型越来越复杂，判别违约客户的准确率也越来越高，但对正常客户的误判率也随之升高。（问题出在数据集的划分上。在把原始数据集划分为训练集和测试集时，原始数据集中违约客户的权重已经被提高过了）

解决方法：先进行数据集划分，然后再提高训练集中违约客户的权重。

10. 太相信最佳模型（Believe the Best Model）

IDMer：还是那句老话－“没有最好，只有更好！”

可解释性并不一定总是必要的。看起来并不完全正确或者可以解释的模型，有时也会有用。

“最佳”模型中使用的一些变量，会分散人们太多的注意力。（不可解释性有时也是一个优点）

一般来说，很多变量看起来彼此都很相似，而最佳模型的结构看上去也千差万别，无迹可循。但需注意的是，结构上相似并不意味着功能上也相似。

解决方法：把多个模型集装起来可能会带来更好更稳定的结果。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试教材；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试题库；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

▷ 想了解CDA院校合作，点击>>> “院校合作” 了解咨询CDA院校合作；

数据挖掘神经网络

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇图论在大数据分析中的作用！

下一篇CDA认证再升一档！与国家共同推进大数据人才培养标准教育事业！

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

京公网安备 11010802034615号经营许可证编号：京B2-20210330

联系电话：13321103290 (微信同号)

客服在线

立即咨询

客服在线

立即咨询

免密码登录

提交首次登录验证后自动注册

数据挖掘中易犯的11大错误(2)

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

CDA持证人专访：贺译册谈产品经理的市场洞察力与数 ...

【CDA干货】多维度对比评估：分析逻辑与可视化效果 ...

从“单元格”到“字段”：CDA数据分析师视角下的表 ...

【CDA干货】漏斗拆解：核心逻辑、实操方法与业务优 ...

【CDA干货】SQL数值转日期函数全解析：主流数据库语 ...

数据分析必修课：CDA数据分析师视角下的表格结构数 ...

CDA持证人专访：杨旭谈数据产品经理的工作实践与核 ...

【CDA干货】Python变量定义与类实例化：核心原理、 ...

从“单元格”到“洞察”：CDA数据分析师视角下的表 ...

【CDA干货】联合索引与覆盖索引：本质区别、实战场 ...

【CDA干货】维度表与事实表：数据仓库建模的核心逻 ...

从“指标堆砌”到“体系落地”：CDA数据分析师视角 ...

【CDA干货】SQL计算列值趋势的全场景实现方法与实战 ...

【CDA干货】用户决策链路全解析：从认知到复购的增 ...

CDA 三级《敏捷数据挖掘》教材知识体系全面解读 ...

【CDA干货】付费玩家流失的核心原因与游戏行业长效 ...

CDA持证人专访：蒋少寒谈传统制造业与互联网行业数 ...

学完商业数据分析，开启 CDA 量化策略：从业务思维 ...

CDA持证人专访：赵森淼谈药企数据分析从业体验与转 ...

【CDA干货】卡方检验与T检验结果的标准化解读方法及 ...

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载

数据挖掘中易犯的11大错误(2)​

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

CDA持证人专访：贺译册谈产品经理的市场洞察力与数 ...

【CDA干货】多维度对比评估：分析逻辑与可视化效果 ...

从“单元格”到“字段”：CDA数据分析师视角下的表 ...

【CDA干货】漏斗拆解：核心逻辑、实操方法与业务优 ...

【CDA干货】SQL数值转日期函数全解析：主流数据库语 ...

数据分析必修课：CDA数据分析师视角下的表格结构数 ...

CDA持证人专访：杨旭谈数据产品经理的工作实践与核 ...

【CDA干货】Python变量定义与类实例化：核心原理、 ...

从“单元格”到“洞察”：CDA数据分析师视角下的表 ...

【CDA干货】联合索引与覆盖索引：本质区别、实战场 ...

【CDA干货】维度表与事实表：数据仓库建模的核心逻 ...

从“指标堆砌”到“体系落地”：CDA数据分析师视角 ...

【CDA干货】SQL计算列值趋势的全场景实现方法与实战 ...

【CDA干货】用户决策链路全解析：从认知到复购的增 ...

CDA 三级《敏捷数据挖掘》教材知识体系全面解读 ...

【CDA干货】付费玩家流失的核心原因与游戏行业长效 ...

CDA持证人专访：蒋少寒谈传统制造业与互联网行业数 ...

学完商业数据分析，开启 CDA 量化策略：从业务思维 ...

CDA持证人专访：赵森淼谈药企数据分析从业体验与转 ...

【CDA干货】卡方检验与T检验结果的标准化解读方法及 ...

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载

数据挖掘中易犯的11大错误(2)