登录
首页精彩阅读如何像数据科学家一样思考
如何像数据科学家一样思考
2017-05-22
收藏
作为一名数据科学家需要很挑剔,并且善于发现他人会遗漏的东西。那么我们应该如何做到像数据科学家一样思考呢?

1. 注意干净数据

在着手处理数据前,你需要问自己,这个数据有意义吗? 若错误地认为数据是干净的,那么很可能会导致错误的结论。除此之外,你还可以通过查看数据的差异来辨别一些模式。例如,当注意到某列数据有超过 50% 的值丢失,那么你可能会考虑不使用该列。或者你会反思是否某些数据收集工具出了问题。

或者从女性化妆品市场中得到的男女用户人数比为 9:1 。此时你可以认为数据没问题,从而就此得出结论;或者根据常识,反思标签是否被交换了。

2. 理智地处理离群值

离群值可以帮助你更好地了解那些时时刻刻使用你的网站或产品的人。但是,在构建模型时包含这些离群值会对数据造成很大的干扰。

3. 留意异常的情况


数据科学家需要在寻常中发现不寻常。如果你有幸发现些什么的话,可能你就中奖了。

例如,Flickr 最初是一个多人游戏。当创始人注意到,人们大多情况下而是将其作为照片上传工具使用时,他们才开始转型。

另一个例子,Fab.com 的前身是 Fabulis.com,它本是男同性恋交友的网站。该网站最受欢迎的功能之一是“每日秒杀活动”。某天的秒杀商品是汉堡包,而其中一半的买家都是女性。这使团队意识到存在着给女性销售商品的市场。所以 Fabulis 便转型成了 Fab,一个针对设计师品牌商品的限时抢购网站。

4. 关注正确的指标


• 谨防虚荣指标。
首先,活跃用户本身并没有带来多大信息。我宁愿说“活跃用户中增加了 5% 的妈妈用户”而不是说“活跃用户增加了 10000 人”。这就是虚荣指标,因为活跃用户总是会增加的。我更愿意关注那些活跃的用户百分比,从而了解产品的情况。

• 试着找出与商业目标相关的衡量标准。
例如,一个月的平均销售量或用户数量。

5. 统计数据也可能说谎


对每件事都要持怀疑态度。过去,统计数据在广告、工作和其他许多营销场合时常常会作假。有时为了获得业绩、升职,人们愿意做任何事情。

比如,你真的相信高露洁声称的有 80% 的牙医推荐他们的牙膏吗?

这些数据一开始看起来还不错。事实证明,在采访牙医的时,他们会推荐好几个,而不仅仅是一个品牌。因此,其他品牌也可能像高露洁一样受欢迎。

另一个例子,99% 的正确率并没什么用。如果让我构建一个癌症预测模型,我可以在一行代码中给你一个 99% 准确的模型。怎么做?只要每一个都预测“没有癌症”即可。因为癌症还是一种较为罕见的疾病,这么看来我的正确率可能会高于 99% 。即便如此我也一无所获。

6. 理解概率的原理


1913 年夏天的某天,在摩纳哥的一家赌场,赌客们惊讶地目睹了赌盘的筛子连续 26 次都落在黑色区域。因为落在红色和黑色区域的概率正好对半,所以他们就确信总要轮到红色了。赌场在这天赚翻了。这就是一个赌徒谬论的完美例子,也就是蒙特卡罗谬论。

这同样也发生在现实生活中。人们倾向于避免连续相同的答案。有时为了得到看似更公平或更有可能的决策而牺牲判断的准确性。

例如,如果一个招生负责人已经通过了三份简历,那么下一份简历很可能被拒绝,即使该生能力出众。

7. 相关性不等于因果关系


数据科学家需要看清事物的本质。仅仅因为两个变量相继发生改变并不一定意味着两者是因果关系。

过去有过这样的例子,比如:通过消防局的数据,你似乎可以就此推断,随着更多的消防员到达火灾现场,造成的损失就越大。

当调查纽约市 80 年代的犯罪原因时,一位学者发现:重大犯罪发生的数量和街头小贩出售冰淇淋的数量有很强的相关性。显然,这当中存在一个未发现的变量促使了两者的发生。夏天是犯罪最严重的时候,同时也是冰淇淋热销的时候。所以销售冰淇淋不会导致犯罪。犯罪的产生也没有增加冰淇淋销售。

8. 数据越多越好


有时额外的数据可能会产生奇迹。通过从不同角度看问题,才能够将问题看得越透彻。获得更多的数据源至关重要。

例如,通过一个城市的犯罪数据,这可能会帮助银行为居住在贫困地区的人提供更好的信用额度,并反过来提高改善这一情况。


原作者 Rahul Agarwal
编译 CDA 编译团队
本文为  CDA 数据分析师原创作品,转载需授权



数据分析咨询请扫描二维码

客服在线
立即咨询