你很可能听说过这样一句话:“相关不是因果。”
这样的说辞大致出自一位遇到了一堆威
胁着他不可动摇的世界观的数据的人之口。 然而,这是个重要的论断——如果 x 和 y 强相
关,那么意味着可能 x 引起了 y,或 y 引起了 x,或者两者相互引起了对方,或者存在第三
方因素同时引起了 x 和 y,或者什么都不是。
回想一下 num_friends 和 daily_minutes 之间的关系。如果 DataSciencester 用户在网站上拥
有更多的朋友, 可能会引起一个结果,即这些用户可能就会愿意在网上花费更多的时间。
也可能是这种情形: 如果每个朋友每天发布一定数量的内容,那么用户的朋友越多,就需
要越多的时间来浏览朋友们的更新。
但是,也有这样一种可能。你泡在 DataSciencester 论坛上的时间越长,你就越有可能碰上
和结识志同道合的朋友。这也意味着,在网站上花费时间越多,就会拥有更多朋友。
第三种可能是, 越是那些热衷于数据科学的用户,就越喜欢在网上花更多时间(因为他们
发现这更有趣), 并且更乐于结交数据科学家朋友(因为他们对其他人不感冒)。
进行随机试验是证实因果关系的可靠性的一个好方法。 你可以先将一组具有类似的统计数
据的用户随机分为两组, 再对其中一组施加稍微不同的影响因素,然后你会发现,不同的
因素会导致不同的结果。
三个资料Q群下载不了也转发不了,先放这里Fine_tuning.zipLangChain.zipdata_clear.rar