登录
首页精彩阅读我们在数据挖掘中迷失了什么?
我们在数据挖掘中迷失了什么?
2016-04-06
收藏

我们在数据挖掘中迷失了什么?

当我们沉浸在亲手构建的模型里的时候,是否会理智地跳出来,重新审视一下,我们所忽略的会不会正是客户所需求的呢?

1.太关注训练

就像体育训练中越来越注重实战训练,因为单纯的封闭式训练常常会训练时状态神勇,比赛时一塌糊涂。实际上,只有样本外数据上的模型评分结果才真正有用!

栗子:机器学习或计算机科学研究者常常试图让模型在已知数据上表现最优,这样做的结果通常会导致过度拟合( overfit )。

解决方法:解决这个问题的典型方法是重抽样。重抽样技术包括:bootstrap、cross-validation、jackknife、leave-one-out…等等。

2.只依赖一项技术

没有对比也就没有所谓的好坏,辩证法的思想在此体现无遗。“当小孩子手拿一把锤子时,整个世界看起来就是一枚钉子。”要想让工作尽善尽美,就需要一套完整的工具箱。不要简单地信赖你用单个方法分析的结果,至少要和传统方法(比如线性回归或线性判别分析)做个比较。

解决方法:使用一系列好的工具和方法。(每种工具或方法可能最多带来5%~10%的改进)。

3.提错了问题

一般在分类算法中都会给出分类精度作为衡量模型好坏的标准,但在实际项目中我们却几乎不看这个指标。为什么?因为那不是我们关注的目标。

a)项目的目标:一定要锁定正确的目标。栗子:欺诈侦测(关注的是正例!)( Shannon实验室在国际长途电话上的分析):不要试图在一般的通话中把欺诈和非欺诈行为分类出来,重点应放在如何描述正常通话的特征,然后据此发现异常通话行为。

b)模型的目标:让计算机去做你希望它做的事。大多数研究人员会沉迷于模型的收敛性来尽量降低误差,这样让他们可以获得数学上的美感。但更应该让计算机做的事情应该是如何改善业务,而不是仅仅侧重模型计算上的精度。

4.只靠数据来说话

如果数据+工具就可以解决问题的话,还要人做什么呢?

a)投机取巧的数据:数据本身只能帮助分析人员找到什么是显著的结果,但它并不能告诉你结果是对还是错。

b)经过设计的实验:某些实验设计中掺杂了人为的成分,这样的实验结果也常常不可信。

5.抛弃了不该忽略的案例

不同的人生态度可以有同样精彩的人生,不同的数据也可能蕴含同样重要的价值。异常值可能会导致错误的结果(比如价格中的小数点标错了),但也可能是问题的答案(比如臭氧洞)。所以需要仔细检查这些异常。研究中最让激动的话语不是“啊哈!”,而是“这就有点奇怪了……”数据中的不一致性有可能会是解决问题的线索,深挖下去也许可以解决一个大的业务问题。

栗子:在直邮营销中,在对家庭地址的合并和清洗过程中发现的数据不一致,反而可能是新的营销机会。

解决方法:可视化可以帮助你分析大量的假设是否成立。

6.轻信预测

事物都是不断发展变化的。人们常常在经验不多的时候轻易得出一些结论。即便发现了一些反例,人们也不太愿意放弃原先的想法。

维度咒语:在低维度上的直觉,放在高维度空间中,常常是毫无意义的。

解决方法:进化论。没有正确的结论,只有越来越准确的结论。

7.试图回答所有问题

“不知道”是一种有意义的模型结果。模型也许无法100%准确回答问题,但至少可以帮我们估计出现某种结果的可能性。


数据分析咨询请扫描二维码

客服在线
立即咨询