京公网安备 11010802034615号
经营许可证编号:京B2-20210330
我们都是大数据时代的海狸_数据分析师
1973年,Alex Pentland还只是个大三学生,他到美国国家宇航局环境研究所实习,做一名电脑程序员。分给他的一项任务是开发一个利用人造卫星,从外太空数清加拿大海狸数量的软件。人造卫星离地球太远,海狸的个头太小,难以精确测度。Pentland灵机一动,想出一个主意:海狸会建造水坝,通过水坝的数量,可以推测海狸的数量。重要的不是去数每一个海狸,而是观察海狸们的生活方式。
在之后的四十多年里,Pentland一直沿着同样的思路思考问题,只不过他关心的不再是海狸的数量,而是人类社会的秩序。 Pentland的学术道路充满了戏剧性。他完成了海狸软件项目之后,对大学生活感到非常沮丧,中途辍学,去当卡车司机了。后来,他又想回到校园,本来报考的是密歇根大学,但他的女朋友去了波士顿,于是,Pentland就改为申请麻省理工学院和哈佛大学。他懒得再写一份新的申请书,直接复印了给密歇根大学的申请书。结果,麻省理工学院录取了他。
Pentland和麻省理工学院里别的科学怪人不同,他一直对心理学感兴趣,想利用人工智能等高科技分析人类的社会行为。拿到博士学位之后,Pentland曾经到斯坦福大学做过一段研究,1986年又回到麻省理工学院,逐步建立自己的团队和实验室。如今,他是麻省理工学院人类动力学实验室的主任,培养了一批批优秀的科技人才,还孵化了至少30家高科技公司。
传统的经济学模型认为每个人都是“理性人”,会独立地做出自己的决策。Pentland的研究则指出,人与人之间存在着广泛的信息交流和传播,这种信息的交流与传播会影响到人们的社会行为。传统的经济学模型依据简单的前提假设进行逻辑推理,而Pentland的研究则依靠大数据。他们有一个庞大的家庭数据库,实时观测30多个行为指标,每6分钟就更新一次数据。他们还有一个大学宿舍的实时监测系统,这些大学生刚入学,Pentland就送他们每人一部智能手机,这部智能手机中的软件会监测学生们的通话、社交活动等信息,累积连续记录了500,000个小时的数据。
与传统经济学理论的假设不同,Pentland发现,人们在做出决策的时候总是会模仿他人的行为。这是有道理的,模仿别人是最有效的学习方式。如果你买了一台新电脑,比如你过去用的是IBM的小黑本,但现在想换一台MacBook Air, 但操作系统跟过去用的不一样,你会怎么办?你是照着操作手册一条一条边读边摸索,还是请教一个用过Mac OS X的朋友呢?
你身边的人会在不知不觉中影响你的行为。比较经典的案例就是体重的变化。如果你身边有熟人体重增加了,你很可能也会慢慢变胖。不过,有趣的是,如果你身边有人成功减肥,却不会对你有太大的影响。而且,只要是熟人,就会影响你的行为,倒不一定非得是跟你亲密的好朋友。你的政治观点也会受到熟人的影响。一般来讲,政治观点相似的人们更愿意厮混在一起,而你和这群人呆的时间越久,彼此互相打气,潜移默化中,你的观点会比以前更加偏激。
这就是信息交流中的“双刃剑”。一方面,“独学而无友,则孤陋寡闻”,但另一方面,如果是抱团取暖,就容易党同伐异,虽起于意见之歧,实成于意气之激。Pentland曾经观察过一个投资者群体的行为。投资者们互相交流心得,比较各自的交易策略,慢慢地,成功投资者的身后会聚拢了一批追随者。一开始,这些成功投资者和他们的追随者的收益率会不断提高,但聚拢来的人太多了,就会出现“羊群效应”,原本能够脱颖而出的交易策略也就失效了,大家的收益率反而比不跟风的时候更低。
乔布斯曾经说过,创新就是把不同的事物联系起来。有创新力的人们知道怎样把自己的经验融会贯通,并尽可能地整合其他人的经验。我们要是想变得更有创新力,就必须注意:第一,社会学习是重要的。能模仿别人的经验就尽量模仿别人的经验,同时也要从别人的失败中吸取教训,这比自己在黑暗中摸索,把所有的错误再犯一遍要更划算。第二,多样性是重要的。如果所有的人都说你错,你可能还会有一线机会是对的;如果所有的人都说你对,那么你很可能离犯大错不远了。尽可能地让你的社交网络广泛,尽可能地让你的团队成员有差异性,最正常的状态应该是一半人说你对,一半人说你错。第三,逆势操作是重要的。站在潮流之外的人很可能看得最清楚。他们可能会选择和潮流相反的方向。他们有可能是极其高明的智者,也可能是脑子坏掉的疯子。你怎么能够判断他们的选择是否正确呢?尽可能地多接触背景不同,但各有各的智慧的高人,如果你发现在他们中间,有一个相当大的子集已经形成了逆势操作的共识,这个判断很可能会是对的。
在大数据时代,我们一路走过,留下来很多信息“面包屑”,这些信息“面包屑”暴露了我们的行为,甚至我们的心理活动和潜意识。当掌握了海量信息之后,我们有可能让一个团队或是社会变得更有效率和活力。大数据尤其在三个方面能够大显身手:一是社会动员(social mobilization)。比如在网络上发动大家寻找“人肉搜索”贪官,在台风、地震之后动员全社会的力量救灾。二是调节社会网络(tuning the social network)。当一个组织的内部变得“同质性”太强的时候,就要及时地补充新的成员,增加多样性;当一个群体内部的信息交流变得过于频繁、密集之后(比如,人们对传播谣言的兴趣超过了深入交流),适当地控制信息交流的速度,或有助于让人们更关注真实的重大问题。三是影响社会契约(leveraging social engagement)。人们生来就是群居动物,当我们彼此合作的时候,比如一起跳舞,一起划船,人的身体内就会释放出更多的内啡肽,让我们更加愉悦和兴奋。
但人们也会在合作中遇到“囚徒悖论”、“公地悲剧”这样的困境,这主要是因为人们各为己利,互相忌惮。如果能够改变激励机制,让人们从团队成员的成功得到奖励,而非单纯从自己的成功中得到奖励,就会激发人们的合作动力。在Kerry Patterson的《影响者:改变任何事物的力量》一书中就讲过一个故事,一个企业雇佣了很多刑满释放人员,而且成功地改造了这些人从监狱和帮派中沿袭下来的“丛林法则”,诀窍之一就是把他们分成一个个小组,奖励和惩罚都不针对个人,而是针对小组。
我们都是大数据时代的海狸。我们不仅能被观察者观测,被分析师研究,我们也能利用大数据,改变自己所在的团队,甚至社会。我们会建造自己的水坝。规则已经不一样了。你如何行动,取决于你如何认识未来的规则:在大数据时代,合作比竞争更重要,交流比交易更重要,灵活的同伴关系比冰冷的阶级斗争更重要。
【作者注】本文取材于Alex Pentland, Social Physics: How Good Ideas Spread—The Lessons from a new science, Scribe, 2014. Pentland还被誉为“可穿戴设备之父”,但当别人问他佩戴了哪些可穿戴设备的时候,他说:“我可不戴什么可穿戴设备,我不喜欢它们,因为它们不够有创造性”。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在Python开发中,HTTP请求是与外部服务交互的核心场景——调用第三方API、对接微服务、爬取数据等都离不开它。虽然requests库已 ...
2025-12-12在数据驱动决策中,“数据波动大不大”是高频问题——零售店长关心日销售额是否稳定,工厂管理者关注产品尺寸偏差是否可控,基金 ...
2025-12-12在CDA(Certified Data Analyst)数据分析师的能力矩阵中,数据查询语言(SQL)是贯穿工作全流程的“核心工具”。无论是从数据库 ...
2025-12-12很多小伙伴都在问CDA考试的问题,以下是结合 2025 年最新政策与行业动态更新的 CDA 数据分析师认证考试 Q&A,覆盖考试内容、报考 ...
2025-12-11在Excel数据可视化中,柱形图因直观展示数据差异的优势被广泛使用,而背景色设置绝非简单的“换颜色”——合理的背景色能突出核 ...
2025-12-11在科研实验、商业分析或医学研究中,我们常需要判断“两组数据的差异是真实存在,还是偶然波动”——比如“新降压药的效果是否优 ...
2025-12-11在CDA(Certified Data Analyst)数据分析师的工作体系中,数据库就像“数据仓库的核心骨架”——所有业务数据的存储、组织与提 ...
2025-12-11在神经网络模型搭建中,“最后一层是否添加激活函数”是新手常困惑的关键问题——有人照搬中间层的ReLU激活,导致回归任务输出异 ...
2025-12-05在机器学习落地过程中,“模型准确率高但不可解释”“面对数据噪声就失效”是两大核心痛点——金融风控模型若无法解释决策依据, ...
2025-12-05在CDA(Certified Data Analyst)数据分析师的能力模型中,“指标计算”是基础技能,而“指标体系搭建”则是区分新手与资深分析 ...
2025-12-05在回归分析的结果解读中,R方(决定系数)是衡量模型拟合效果的核心指标——它代表因变量的变异中能被自变量解释的比例,取值通 ...
2025-12-04在城市规划、物流配送、文旅分析等场景中,经纬度热力图是解读空间数据的核心工具——它能将零散的GPS坐标(如外卖订单地址、景 ...
2025-12-04在CDA(Certified Data Analyst)数据分析师的指标体系中,“通用指标”与“场景指标”并非相互割裂的两个部分,而是支撑业务分 ...
2025-12-04每到“双十一”,电商平台的销售额会迎来爆发式增长;每逢冬季,北方的天然气消耗量会显著上升;每月的10号左右,工资发放会带动 ...
2025-12-03随着数字化转型的深入,企业面临的数据量呈指数级增长——电商的用户行为日志、物联网的传感器数据、社交平台的图文视频等,这些 ...
2025-12-03在CDA(Certified Data Analyst)数据分析师的工作体系中,“指标”是贯穿始终的核心载体——从“销售额环比增长15%”的业务结论 ...
2025-12-03在神经网络训练中,损失函数的数值变化常被视为模型训练效果的“核心仪表盘”——初学者盯着屏幕上不断下降的损失值满心欢喜,却 ...
2025-12-02在CDA(Certified Data Analyst)数据分析师的日常工作中,“用部分数据推断整体情况”是高频需求——从10万条订单样本中判断全 ...
2025-12-02在数据预处理的纲量统一环节,标准化是消除量纲影响的核心手段——它将不同量级的特征(如“用户年龄”“消费金额”)转化为同一 ...
2025-12-02在数据驱动决策成为企业核心竞争力的今天,A/B测试已从“可选优化工具”升级为“必选验证体系”。它通过控制变量法构建“平行实 ...
2025-12-01