京公网安备 11010802034615号
经营许可证编号:京B2-20210330
我们都是大数据时代的海狸_数据分析师
1973年,Alex Pentland还只是个大三学生,他到美国国家宇航局环境研究所实习,做一名电脑程序员。分给他的一项任务是开发一个利用人造卫星,从外太空数清加拿大海狸数量的软件。人造卫星离地球太远,海狸的个头太小,难以精确测度。Pentland灵机一动,想出一个主意:海狸会建造水坝,通过水坝的数量,可以推测海狸的数量。重要的不是去数每一个海狸,而是观察海狸们的生活方式。
在之后的四十多年里,Pentland一直沿着同样的思路思考问题,只不过他关心的不再是海狸的数量,而是人类社会的秩序。 Pentland的学术道路充满了戏剧性。他完成了海狸软件项目之后,对大学生活感到非常沮丧,中途辍学,去当卡车司机了。后来,他又想回到校园,本来报考的是密歇根大学,但他的女朋友去了波士顿,于是,Pentland就改为申请麻省理工学院和哈佛大学。他懒得再写一份新的申请书,直接复印了给密歇根大学的申请书。结果,麻省理工学院录取了他。
Pentland和麻省理工学院里别的科学怪人不同,他一直对心理学感兴趣,想利用人工智能等高科技分析人类的社会行为。拿到博士学位之后,Pentland曾经到斯坦福大学做过一段研究,1986年又回到麻省理工学院,逐步建立自己的团队和实验室。如今,他是麻省理工学院人类动力学实验室的主任,培养了一批批优秀的科技人才,还孵化了至少30家高科技公司。
传统的经济学模型认为每个人都是“理性人”,会独立地做出自己的决策。Pentland的研究则指出,人与人之间存在着广泛的信息交流和传播,这种信息的交流与传播会影响到人们的社会行为。传统的经济学模型依据简单的前提假设进行逻辑推理,而Pentland的研究则依靠大数据。他们有一个庞大的家庭数据库,实时观测30多个行为指标,每6分钟就更新一次数据。他们还有一个大学宿舍的实时监测系统,这些大学生刚入学,Pentland就送他们每人一部智能手机,这部智能手机中的软件会监测学生们的通话、社交活动等信息,累积连续记录了500,000个小时的数据。
与传统经济学理论的假设不同,Pentland发现,人们在做出决策的时候总是会模仿他人的行为。这是有道理的,模仿别人是最有效的学习方式。如果你买了一台新电脑,比如你过去用的是IBM的小黑本,但现在想换一台MacBook Air, 但操作系统跟过去用的不一样,你会怎么办?你是照着操作手册一条一条边读边摸索,还是请教一个用过Mac OS X的朋友呢?
你身边的人会在不知不觉中影响你的行为。比较经典的案例就是体重的变化。如果你身边有熟人体重增加了,你很可能也会慢慢变胖。不过,有趣的是,如果你身边有人成功减肥,却不会对你有太大的影响。而且,只要是熟人,就会影响你的行为,倒不一定非得是跟你亲密的好朋友。你的政治观点也会受到熟人的影响。一般来讲,政治观点相似的人们更愿意厮混在一起,而你和这群人呆的时间越久,彼此互相打气,潜移默化中,你的观点会比以前更加偏激。
这就是信息交流中的“双刃剑”。一方面,“独学而无友,则孤陋寡闻”,但另一方面,如果是抱团取暖,就容易党同伐异,虽起于意见之歧,实成于意气之激。Pentland曾经观察过一个投资者群体的行为。投资者们互相交流心得,比较各自的交易策略,慢慢地,成功投资者的身后会聚拢了一批追随者。一开始,这些成功投资者和他们的追随者的收益率会不断提高,但聚拢来的人太多了,就会出现“羊群效应”,原本能够脱颖而出的交易策略也就失效了,大家的收益率反而比不跟风的时候更低。
乔布斯曾经说过,创新就是把不同的事物联系起来。有创新力的人们知道怎样把自己的经验融会贯通,并尽可能地整合其他人的经验。我们要是想变得更有创新力,就必须注意:第一,社会学习是重要的。能模仿别人的经验就尽量模仿别人的经验,同时也要从别人的失败中吸取教训,这比自己在黑暗中摸索,把所有的错误再犯一遍要更划算。第二,多样性是重要的。如果所有的人都说你错,你可能还会有一线机会是对的;如果所有的人都说你对,那么你很可能离犯大错不远了。尽可能地让你的社交网络广泛,尽可能地让你的团队成员有差异性,最正常的状态应该是一半人说你对,一半人说你错。第三,逆势操作是重要的。站在潮流之外的人很可能看得最清楚。他们可能会选择和潮流相反的方向。他们有可能是极其高明的智者,也可能是脑子坏掉的疯子。你怎么能够判断他们的选择是否正确呢?尽可能地多接触背景不同,但各有各的智慧的高人,如果你发现在他们中间,有一个相当大的子集已经形成了逆势操作的共识,这个判断很可能会是对的。
在大数据时代,我们一路走过,留下来很多信息“面包屑”,这些信息“面包屑”暴露了我们的行为,甚至我们的心理活动和潜意识。当掌握了海量信息之后,我们有可能让一个团队或是社会变得更有效率和活力。大数据尤其在三个方面能够大显身手:一是社会动员(social mobilization)。比如在网络上发动大家寻找“人肉搜索”贪官,在台风、地震之后动员全社会的力量救灾。二是调节社会网络(tuning the social network)。当一个组织的内部变得“同质性”太强的时候,就要及时地补充新的成员,增加多样性;当一个群体内部的信息交流变得过于频繁、密集之后(比如,人们对传播谣言的兴趣超过了深入交流),适当地控制信息交流的速度,或有助于让人们更关注真实的重大问题。三是影响社会契约(leveraging social engagement)。人们生来就是群居动物,当我们彼此合作的时候,比如一起跳舞,一起划船,人的身体内就会释放出更多的内啡肽,让我们更加愉悦和兴奋。
但人们也会在合作中遇到“囚徒悖论”、“公地悲剧”这样的困境,这主要是因为人们各为己利,互相忌惮。如果能够改变激励机制,让人们从团队成员的成功得到奖励,而非单纯从自己的成功中得到奖励,就会激发人们的合作动力。在Kerry Patterson的《影响者:改变任何事物的力量》一书中就讲过一个故事,一个企业雇佣了很多刑满释放人员,而且成功地改造了这些人从监狱和帮派中沿袭下来的“丛林法则”,诀窍之一就是把他们分成一个个小组,奖励和惩罚都不针对个人,而是针对小组。
我们都是大数据时代的海狸。我们不仅能被观察者观测,被分析师研究,我们也能利用大数据,改变自己所在的团队,甚至社会。我们会建造自己的水坝。规则已经不一样了。你如何行动,取决于你如何认识未来的规则:在大数据时代,合作比竞争更重要,交流比交易更重要,灵活的同伴关系比冰冷的阶级斗争更重要。
【作者注】本文取材于Alex Pentland, Social Physics: How Good Ideas Spread—The Lessons from a new science, Scribe, 2014. Pentland还被誉为“可穿戴设备之父”,但当别人问他佩戴了哪些可穿戴设备的时候,他说:“我可不戴什么可穿戴设备,我不喜欢它们,因为它们不够有创造性”。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在MySQL数据库优化中,分区表是处理海量数据的核心手段——通过将大表按分区键(如时间、地域、ID范围)分割为多个独立的小分区 ...
2026-03-19在商业智能与数据可视化领域,同比、环比增长率是分析数据变化趋势的核心指标——同比(YoY)聚焦“长期趋势”,通过当前周期与 ...
2026-03-19在数据分析与建模领域,流传着一句行业共识:“数据决定上限,特征决定下限”。对CDA(Certified Data Analyst)数据分析师而言 ...
2026-03-19机器学习算法工程的核心价值,在于将理论算法转化为可落地、可复用、高可靠的工程化解决方案,解决实际业务中的痛点问题。不同于 ...
2026-03-18在动态系统状态估计与目标跟踪领域,高精度、高鲁棒性的状态感知是机器人导航、自动驾驶、工业控制、目标检测等场景的核心需求。 ...
2026-03-18“垃圾数据进,垃圾结果出”,这是数据分析领域的黄金法则,更是CDA(Certified Data Analyst)数据分析师日常工作中时刻恪守的 ...
2026-03-18在机器学习建模中,决策树模型因其结构直观、易于理解、无需复杂数据预处理等优势,成为分类与回归任务的首选工具之一。而变量重 ...
2026-03-17在数据分析中,卡方检验是一类基于卡方分布的假设检验方法,核心用于分析分类变量之间的关联关系或实际观测分布与理论期望分布的 ...
2026-03-17在数字化转型的浪潮中,企业积累的数据日益庞大且分散——用户数据散落在注册系统、APP日志、客服记录中,订单数据分散在交易平 ...
2026-03-17在数字化时代,数据分析已成为企业决策、业务优化、增长突破的核心支撑,从数据仓库搭建(如维度表与事实表的设计)、数据采集清 ...
2026-03-16在数据仓库建设、数据分析(尤其是用户行为分析、业务指标分析)的实践中,维度表与事实表是两大核心组件,二者相互依存、缺一不 ...
2026-03-16数据是CDA(Certified Data Analyst)数据分析师开展一切工作的核心载体,而数据读取作为数据生命周期的关键环节,是连接原始数 ...
2026-03-16在用户行为分析实践中,很多从业者会陷入一个核心误区:过度关注“当前数据的分析结果”,却忽视了结果的“泛化能力”——即分析 ...
2026-03-13在数字经济时代,用户的每一次点击、浏览、停留、转化,都在传递着真实的需求信号。用户行为分析,本质上是通过收集、整理、挖掘 ...
2026-03-13在金融、零售、互联网等数据密集型行业,量化策略已成为企业挖掘商业价值、提升决策效率、控制经营风险的核心工具。而CDA(Certi ...
2026-03-13在机器学习建模体系中,随机森林作为集成学习的经典算法,凭借高精度、抗过拟合、适配多场景、可解释性强的核心优势,成为分类、 ...
2026-03-12在机器学习建模过程中,“哪些特征对预测结果影响最大?”“如何筛选核心特征、剔除冗余信息?”是从业者最常面临的核心问题。随 ...
2026-03-12在数字化转型深度渗透的今天,企业管理已从“经验驱动”全面转向“数据驱动”,数据思维成为企业高质量发展的核心竞争力,而CDA ...
2026-03-12在数字经济飞速发展的今天,数据分析已从“辅助工具”升级为“核心竞争力”,渗透到商业、科技、民生、金融等各个领域。无论是全 ...
2026-03-11上市公司财务报表是反映企业经营状况、盈利能力、偿债能力的核心数据载体,是投资者决策、研究者分析、从业者复盘的重要依据。16 ...
2026-03-11