登录
首页精彩阅读当数据分析成了一门显学,算法会左右你的终身大事
当数据分析成了一门显学,算法会左右你的终身大事
2016-10-17
收藏

当数据分析成了一门显学,算法会左右你的终身大事

你愿意你的终身大事被算法安排吗?如果有一天算法将比你更加了解你自己,你准备好相应的心智模块了吗?本期数据侠将比较机器学习和传统数据建模的区别,并用最优停止理论教你:下次再遇到逼婚的,就可以告诉父母,数学家已经证明了,33岁之后再选择遇到最好的那个也不迟。

算法将比你更加了解你自己?

听过了很多道理,却依然过不好这一生。

这是很多人的困惑。这篇小文想讲的是,任何一场科技中的浪潮,都会带来方法论上的变革。关于人生中的抉择,人们总是用当前最热门科技中的概念去类比。正如Carl Sagan(美国天文学家、天体物理学家、宇宙学家、科幻作家)所说:Science is a way of thinking much more than it is a body of knowledge(与其说科学是一套知识体系倒不如说是一种思维方式)。授人以鱼不如授人以渔,了解了方法论的变革,才会带来元认知上的升级换代。

在过去,当我们站在人生选择的十字路口,我们会从古代先哲的话中去寻找启迪,会听从当地宗教领袖的话,到了启蒙运动之后,社会的主流意见变成了听从你内心的声音。然而,随着数据在我们的生活中占据了越来越重要的位置,我们做决策时也需要拿出数据和图表,用量化的数据以及算法来指导我们的决策,而不只是做你自己喜欢的事。

为什么我们不应该只追随自己的inner voice了?这是因为当代心理学及其衍生出来的行为经济学已积累了足够的证据,说明人类会系统性的犯错误。关于这个话题,最著名的论述就是《思考,快与慢》这本书,另一本值得看的书是《进化的“乱乱脑”是怎么让你不完美的》。

另一方面,在《A brief history of tomorrow》这本书中,作者指出,做出明智的决策,自我意识的存在不是必要条件,很多Non-conscious but highly intelligent(不自觉的高度智能化)的算法即将在未来变得比我们更加了解自己。但我们有些时候却不愿相信算法帮我们做出的决策,尤其在面对人生的关键选择时。

最优停止理论:33岁后再选择遇到最好的那个不迟

例如,你愿意你的终身大事被算法安排吗?

当一个程序告诉你,你应该和A结婚,尽管你觉得B更有魅力时,你会听程序的安排吗?要回答这个问题,最好我们先了解程序背后的算法逻辑,否则在对算法一无所知的情况下做出的选择,不会是一个明智的选择。在不久的将来,算法将会或显或隐的影响你的选择,你准备好相应的心智模块了吗?

举一个具体的例子,假如一个非常优秀的人参加选秀节目,已知追求的他的人有有限个,例如10位,选秀节目规定,他不能脚踏两只船,即不能同时和两个人交往,如果在交往之后他没有接受这个人,那么,以后也没有机会再选择这个人作为对象。然后接着和下一个人交往。他该怎么办?

对这个问题的回答,有两种思考方式,先说机器学习的方式。

一个做机器学习的人拿到这个问题,首先会做的是收集数据,假设上面提到的选秀节目进行了100期,那么要收集的数据包括这一百期节目中每位男嘉宾的年龄,学历,身高,职业等结构化的数据,还会收集台上发生的对话这样非结构化的数据,最后在通过对每位女嘉宾的事后访谈,确定各位女嘉宾是否后悔自己的选择,是否和男嘉宾有更多的发展。之后将所有的这些数据放入多个模型中,目标是找出一套规律来,来指导未来参加这个节目的女嘉宾,让她们能做出让她们最不后悔的选择。

不同的模型给出的规律会各有不同,有的模型很简单,会告诉女嘉宾找和自己年龄相差最小的,有些规则会很复杂,会告诉女嘉宾去找又高又年轻的程序员但是却要比自己大1岁到3岁。

另一种方法是传统的数学模型。关于上文提到的问题,有一个现成的数学理论可以去对这个问题给出最优解。

Optimal Stop Theory (最优停止理论)是一个在金融衍生品定价中应用很广泛的理论,假设每个女嘉宾可以对男嘉宾给出一个唯一的打分,但女嘉宾不清楚这届男嘉宾的整体水平怎么样,需要拿前几个去摸索一下自己应该把标准定的多高,又担心久久不选择,错过了最好的那个,那么Optimal Stop Theory 给出的答案是37%,在37%之后,女嘉宾应该不要犹豫,只要遇到一个比之前的选择都得分高的男嘉宾,该将就就将就吧。

当数据分析成了一门显学,算法会左右你的终身大事? 

对于这个问题的数学建模,感兴趣的童鞋可以自己去推算出上文提到的37%来。

当数据分析成了一门显学,算法会左右你的终身大事? 

在男嘉宾的数目不同时,女嘉宾按最优停止理论应该采取的最优策略,以及对应的有多少比例找到这一组中男嘉宾中最好的那个,有63%的概率遇不到最好的那个这不是一个好消息,但从另一方面来看,最优停止理论保证了不管男嘉宾有多少个,女嘉宾总能有差不多的几率找到最好的那个。

将选秀节目中的场景反射到生活的时间之流中。我们每个人也都会遇到或多或少几个追求者,也会在到底是该等待唯一的那个人,还是就这么嫁了中彷徨。假设我们的平均寿命是90岁,那么最优停止理论告诉你可以在33岁前去扩大你的选择,过了33岁之后,再选择遇到最好的那个不迟。下次再遇到逼婚的,就可以给父母亲戚推一推公式,告诉他们数学家已经证明了,再等几年是最优的选择。

(萌主补充:最优停止理论 Optimal Stopping Theory, 在经济学、金融领域使用非常广泛,例如美式期权在股票交易中看涨看跌,执行期权,基本都使用停止理论来求解。但是实际上,除了相亲问题,这一理论同样适用于买房问题、经典的秘书问题等等)

机器学习和传统数学建模

比较一下机器学习和传统数学建模的方式,机器学习处理多维的、复杂的数据,其模型相比数学模型,需要更少的假设条件,其得出的结论,不会保证其一定是最优的。而数学建模,首先假设了男嘉宾出现的次序和其质量是独立的,更重要的是,其要求女嘉宾对每一个男嘉宾有一个唯一的打分。如果真的能这样,生活中的选择就简单多了。所以说,尽管机器学习有时会给出一些不那么靠谱的选择,在面对现实的问题时,不过度的简化问题,是给出的解答有用的一个必要条件。

不过,不管是什么方法得出的答案,数据指导的思考方式要求你去做验证,要求你去质疑假设,并看看将某些假设做了修改后,答案又会变成怎样。比如上文提到的问题,如果假设在女嘉宾拒绝了男嘉宾后一次,男嘉宾还会接受女嘉宾,那么女嘉宾的最优选择应该是什么了?又比如女嘉宾能给男嘉宾一个0到100之间的评分,而不是不清楚这届男嘉宾的分数上下限的时候,又应该采取什么样的策略了。

数据时代,首先要说的是:质疑你的假设。 

关于验证你的结论,最弱的证据是个人的经验,稍微强一些的是案例分析,即名人的传记访谈,因为第三方的视角会去除掉自我记忆的和认知中的偏见。更好的证据是统计分析,比如查一查结婚的年龄和离婚率是否相关,如果在20到40岁之间,排除其他因素,结婚年龄太早或者太晚的离婚率很高,再通过问卷调查,得出对婚姻的满意程度,结果发现按照当时的预期寿命,相应年龄结婚的伙伴满意度最高,那么说明最优停止理论还是有一定道理的。

比统计更高级的验证是机器学习中最常用的Cross Validation(交叉验证:是一种评估统计分析机器学习算法对独立于训练数据的数据集的泛化能力)。举个例子,5 fold Cross Validation 将已知的数据分成10份,选8份作为训练数据集,将这些数据丢给模型,然后在剩下的两份数据上去检测模型的效果。然后重复这个过程5次,直到每份数据都做了一次测试数据了。

交叉验证是为了保证训练出的模型不会把数据中噪音放大,然而其背后的思想则是我们对现实的认识的不完全的,因此训练时数据少一些,是必然的。模型不能要求麦克斯韦妖(Maxwell's demon,是在物理学中,假想的能探测并控制单个分子运动的“类人妖”或功能相同的机制,是1871年由19世纪英国物理学家麦克斯韦为了说明违反热力学第二定律的可能性而设想的。)那样的全知全能,而要在部分可见的情况下给出相对靠谱的对整体的预测。这种对自己的未知谦卑的态度,让人想起了“认识你自己”这句古希腊的格言。

如果将机器学习的算法看成是一个认知策略,那么认识你自己说的就是meta-learning(元学习),即是将不同的算法结合起来,取长补短,从而更快得到更好的结果。

当数据分析成了一门显学,算法会左右你的终身大事? 

机器学习的方法框架和循环,实现模型,验证模型,分析模型的效果和优缺点,在一轮轮的迭代中持续改进模型。

Explore和Exploit的不同

之后,想谈一谈上文案例反映的一个更深层次的权衡(tradeoff),也就是Explore(探究)和Exploit(致用)的不同。

我们年轻的时候,总是忍不住想去看一看世界,所谓的没有看过世界,哪来的世界观,而当年纪渐长,就应有所立足,在某一个领域有所专注,从而exploit自己之前积累的见识,这固然会让你觉得生活不在像之前那样丰富多彩,新的刺激会减少,然而这是生命的常态,如同熵增一样不可避免。

要想生命之树常青,除了认识到时间箭头不可逆带来的新朋友新经历越来越少,就是要在自己横向的处理问题时把握好这个权衡,做到既不过度explore,也不过度Exploit。

当数据分析成了一门显学,算法会左右你的终身大事? 

过度exploit带来的问题是overfitting(过度拟合),这个机器学习中的概念对应是生活中的阴谋论或者对文本的过度解读。比如用一条线连接下图的五个点。overfiting的答案是这样一条包含五个参数的弯弯曲曲的曲线,这条曲线虽然在这五个点上误差极小,但当加入一个新的点之后,结果就不那么好了。这里更好的解答应该是一条包含两个参数的直线。

当数据分析成了一门显学,算法会左右你的终身大事? 

阴谋论将几个看似不相关的事件用一个不那么简单直接的故事连接起来,在笔者《阴谋论为何总是错的》这篇文章中,已经对阴谋论有更深入的分析,感兴趣的小伙伴可以进一步了解。

犯了过度exploit这种错误的小伙伴,总想着找出一个一招鲜吃遍天的法子来,在数据收集的还不够充分的时候,机器学习的方法既可以放大数据中的规律,也可以放大其噪音,只有更多的数据才能解决这个问题。比如下图中的下一个图形该是哪一个,有两种可能的解答,这两种规律哪一个才是我们真正关心的了?只有更多的数据才能回答。

当数据分析成了一门显学,算法会左右你的终身大事? 

过度Explore的问题也许更多人更加熟悉,信息过载这个词很多人会觉得陌生,然而当看到那数不清的朋友圈,每日头条的诸多推送,你就会明白什么叫信息过载了,关于这个问题,可以参考《如果用刷朋友圈的时间读一本书,能读多少本?》和《我应该删掉多少好友,屏蔽多少朋友圈》两篇文章。过度explore让人成为只会读兵书的赵括马谡,让人们以为知道了很多碎片化的知识,却无法形成体系。

过度explore的一个解毒良药是机器学习中No free lunch (没有免费的午餐)定理,我们在机器学习中衡量两个算法,到底孰优孰劣,该怎么考虑?“没有免费的午餐定理”仿佛给了一个很令人失望的答案:针对某一域的所有问题,所有算法的期望性能是相同的。注意,这里有两个关键词,某一域的“所有”,和“期望”性能。所以它并没有否认两个算法有优劣之分,并且事实上还提供了一个视角让我们理解为什么在机器学习中,我们可以选择算法的优劣性。

No free lunch定理告诉我们,没有一个适用于所有问题的通用方法。机器学习的诸多方法各有各的适用场景,需要使用者因地制宜的去选择。这个定理还告诉我们,即使收集到了全部的数据,我们也无法一锤定音的找到一个一成不变的最优方案。这对从事机器学习人来说是个好消息,说明其工作要被计算机取代,还需要一段时间,任何机器学习算法成功的背后,都是很多人持续的选择和分析一点一滴堆出来的胜利。

数据思维带给我们的启示,除了用数据去支持你人生的决策外,另一点是去关注explore 和exploit自己的平衡,不要犯上面提到的两类错误。知道何时该停止试水的最优停止理论,无疑可以在这方面给予读者启迪。而另一方,我们可以通过制度的设计来帮助大家去做出更好的选择。

预测市场:当为言论买单时,你会更注重发言质量

纳西姆·尼古拉斯·塔勒布的《反脆弱》一书中(参考《杀不死我的东西,使我变得更强大|BetterRead》)中提到Have an skin in the game,说的是当你需要为你的言论买单时,你会更注重你发言的质量,更加深思熟虑。而通过市场机制去将众多人的观点综合起来的制度,就是《Superforcast》这本书中提到的预测市场。

比如你想知道美国大选谁的胜率高,民调的结果不靠谱,因为很多选民会在投票时变卦,专家的意见更加不靠谱,专家都有自己的偏见,那该听谁的?有这么一个市场,你可以针对各种事情下注,从NBA得冠军到石油价格的涨跌,这个市场上你可以自由的交易自己的赌注。通过对这个市场的观察,那么就可以得出最靠谱准确的预测来。这就是通过市场的扩展秩序来发掘人群中的私人的隐形知识,同时避免噪音的干扰。

如果能综合利用到更多人的观点,预测的准确度会不会提高了,脑补这样一种未来,人们不止是为了接受信息付费,还能为了传播观点承担风险。

具体的举个例子,如果你写了一篇,或者转发了一篇支持希拉里当下一任美国总统的文章,然后在发表时后台系统的自然语言处理系统识别出了你文章中的观点,要求你付一笔钱,到时候如果希拉里赢得了大选,你会按照出价时的赔率获得相应的赔偿,若是你猜错了,你会损失这笔钱。或者你在这样的预测市场上下了注,你写了篇文章解释你为什么要下注。这里的要点是要想发出声音,你需要花钱,愿意将越多的钱用来做风险投资,你的声音就越大,就会被置顶,被更多人听到。

这会不会通过金钱上的刺激,使你更加注重explore和exploit之间的权衡,从而提高下一届朋友圈的信息水准,那些传播阴谋论的,会赌他们预测那末日即将到来,然后天下太平,他们失去了自己的赌注,从而只能发出更小的声音。

而那些只收集信息的人,则失去了将自己的洞见变现的机会。优胜劣汰,在这样的舆论生态圈中,活下去的都会是智者,而无论是做投资的,亦或是普通人,都可以从这样的预测市场中受益,就像我们从市场经济中获得了高质量的物质资源,结合了自然语言处理的预测市场将会为我们的注意力资源的合理分配提供一种可能性。

数据分析咨询请扫描二维码

客服在线
立即咨询