京公网安备 11010802034615号
经营许可证编号:京B2-20210330
我们都是大数据时代的海狸_数据分析师
1973年,Alex Pentland还只是个大三学生,他到美国国家宇航局环境研究所实习,做一名电脑程序员。分给他的一项任务是开发一个利用人造卫星,从外太空数清加拿大海狸数量的软件。人造卫星离地球太远,海狸的个头太小,难以精确测度。Pentland灵机一动,想出一个主意:海狸会建造水坝,通过水坝的数量,可以推测海狸的数量。重要的不是去数每一个海狸,而是观察海狸们的生活方式。
在之后的四十多年里,Pentland一直沿着同样的思路思考问题,只不过他关心的不再是海狸的数量,而是人类社会的秩序。 Pentland的学术道路充满了戏剧性。他完成了海狸软件项目之后,对大学生活感到非常沮丧,中途辍学,去当卡车司机了。后来,他又想回到校园,本来报考的是密歇根大学,但他的女朋友去了波士顿,于是,Pentland就改为申请麻省理工学院和哈佛大学。他懒得再写一份新的申请书,直接复印了给密歇根大学的申请书。结果,麻省理工学院录取了他。
Pentland和麻省理工学院里别的科学怪人不同,他一直对心理学感兴趣,想利用人工智能等高科技分析人类的社会行为。拿到博士学位之后,Pentland曾经到斯坦福大学做过一段研究,1986年又回到麻省理工学院,逐步建立自己的团队和实验室。如今,他是麻省理工学院人类动力学实验室的主任,培养了一批批优秀的科技人才,还孵化了至少30家高科技公司。
传统的经济学模型认为每个人都是“理性人”,会独立地做出自己的决策。Pentland的研究则指出,人与人之间存在着广泛的信息交流和传播,这种信息的交流与传播会影响到人们的社会行为。传统的经济学模型依据简单的前提假设进行逻辑推理,而Pentland的研究则依靠大数据。他们有一个庞大的家庭数据库,实时观测30多个行为指标,每6分钟就更新一次数据。他们还有一个大学宿舍的实时监测系统,这些大学生刚入学,Pentland就送他们每人一部智能手机,这部智能手机中的软件会监测学生们的通话、社交活动等信息,累积连续记录了500,000个小时的数据。
与传统经济学理论的假设不同,Pentland发现,人们在做出决策的时候总是会模仿他人的行为。这是有道理的,模仿别人是最有效的学习方式。如果你买了一台新电脑,比如你过去用的是IBM的小黑本,但现在想换一台MacBook Air, 但操作系统跟过去用的不一样,你会怎么办?你是照着操作手册一条一条边读边摸索,还是请教一个用过Mac OS X的朋友呢?
你身边的人会在不知不觉中影响你的行为。比较经典的案例就是体重的变化。如果你身边有熟人体重增加了,你很可能也会慢慢变胖。不过,有趣的是,如果你身边有人成功减肥,却不会对你有太大的影响。而且,只要是熟人,就会影响你的行为,倒不一定非得是跟你亲密的好朋友。你的政治观点也会受到熟人的影响。一般来讲,政治观点相似的人们更愿意厮混在一起,而你和这群人呆的时间越久,彼此互相打气,潜移默化中,你的观点会比以前更加偏激。
这就是信息交流中的“双刃剑”。一方面,“独学而无友,则孤陋寡闻”,但另一方面,如果是抱团取暖,就容易党同伐异,虽起于意见之歧,实成于意气之激。Pentland曾经观察过一个投资者群体的行为。投资者们互相交流心得,比较各自的交易策略,慢慢地,成功投资者的身后会聚拢了一批追随者。一开始,这些成功投资者和他们的追随者的收益率会不断提高,但聚拢来的人太多了,就会出现“羊群效应”,原本能够脱颖而出的交易策略也就失效了,大家的收益率反而比不跟风的时候更低。
乔布斯曾经说过,创新就是把不同的事物联系起来。有创新力的人们知道怎样把自己的经验融会贯通,并尽可能地整合其他人的经验。我们要是想变得更有创新力,就必须注意:第一,社会学习是重要的。能模仿别人的经验就尽量模仿别人的经验,同时也要从别人的失败中吸取教训,这比自己在黑暗中摸索,把所有的错误再犯一遍要更划算。第二,多样性是重要的。如果所有的人都说你错,你可能还会有一线机会是对的;如果所有的人都说你对,那么你很可能离犯大错不远了。尽可能地让你的社交网络广泛,尽可能地让你的团队成员有差异性,最正常的状态应该是一半人说你对,一半人说你错。第三,逆势操作是重要的。站在潮流之外的人很可能看得最清楚。他们可能会选择和潮流相反的方向。他们有可能是极其高明的智者,也可能是脑子坏掉的疯子。你怎么能够判断他们的选择是否正确呢?尽可能地多接触背景不同,但各有各的智慧的高人,如果你发现在他们中间,有一个相当大的子集已经形成了逆势操作的共识,这个判断很可能会是对的。
在大数据时代,我们一路走过,留下来很多信息“面包屑”,这些信息“面包屑”暴露了我们的行为,甚至我们的心理活动和潜意识。当掌握了海量信息之后,我们有可能让一个团队或是社会变得更有效率和活力。大数据尤其在三个方面能够大显身手:一是社会动员(social mobilization)。比如在网络上发动大家寻找“人肉搜索”贪官,在台风、地震之后动员全社会的力量救灾。二是调节社会网络(tuning the social network)。当一个组织的内部变得“同质性”太强的时候,就要及时地补充新的成员,增加多样性;当一个群体内部的信息交流变得过于频繁、密集之后(比如,人们对传播谣言的兴趣超过了深入交流),适当地控制信息交流的速度,或有助于让人们更关注真实的重大问题。三是影响社会契约(leveraging social engagement)。人们生来就是群居动物,当我们彼此合作的时候,比如一起跳舞,一起划船,人的身体内就会释放出更多的内啡肽,让我们更加愉悦和兴奋。
但人们也会在合作中遇到“囚徒悖论”、“公地悲剧”这样的困境,这主要是因为人们各为己利,互相忌惮。如果能够改变激励机制,让人们从团队成员的成功得到奖励,而非单纯从自己的成功中得到奖励,就会激发人们的合作动力。在Kerry Patterson的《影响者:改变任何事物的力量》一书中就讲过一个故事,一个企业雇佣了很多刑满释放人员,而且成功地改造了这些人从监狱和帮派中沿袭下来的“丛林法则”,诀窍之一就是把他们分成一个个小组,奖励和惩罚都不针对个人,而是针对小组。
我们都是大数据时代的海狸。我们不仅能被观察者观测,被分析师研究,我们也能利用大数据,改变自己所在的团队,甚至社会。我们会建造自己的水坝。规则已经不一样了。你如何行动,取决于你如何认识未来的规则:在大数据时代,合作比竞争更重要,交流比交易更重要,灵活的同伴关系比冰冷的阶级斗争更重要。
【作者注】本文取材于Alex Pentland, Social Physics: How Good Ideas Spread—The Lessons from a new science, Scribe, 2014. Pentland还被誉为“可穿戴设备之父”,但当别人问他佩戴了哪些可穿戴设备的时候,他说:“我可不戴什么可穿戴设备,我不喜欢它们,因为它们不够有创造性”。
CDA学员免费下载查看报告全文:2026全球数智化人才指数报告【CDA数据科学研究院】.pdf
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在Excel数据分析中,数据透视表是汇总、整理海量数据的高效工具,而公式则是实现数据二次计算、逻辑判断的核心功能。实际操作中 ...
2026-04-30Excel透视图是数据分析中不可或缺的工具,它能将透视表中的数据快速可视化,帮助我们直观捕捉数据规律、呈现分析结果。但在实际 ...
2026-04-30 很多数据分析师能熟练地计算指标、搭建标签体系,但当被问到“画像到底在解决什么问题”“画像和标签是什么关系”“画像如何 ...
2026-04-30在中介效应分析中,人口统计学变量(如年龄、性别、学历、收入、职业等)是常见的控制变量或调节变量,其处理方式直接影响分析结 ...
2026-04-29在SQL数据库实操中,日期数据的存储与显示是高频需求,而“数字日期”(如20240520、20241231、45321)是很多开发者、数据分析师 ...
2026-04-29 很多分析师在设计标签时思路清晰,但真到落地环节却面临“数据在手,不知如何转化为可用标签”的困境:或因加工方式选择不当 ...
2026-04-29在手游行业竞争日趋白热化的当下,“流量为王”早已升级为“留存为王”,而付费用户留存率更是衡量一款手游盈利能力、运营质量的 ...
2026-04-28在日常MySQL数据库运维与开发中,经常会遇到“同一台服务器上,两个不同数据库(以下简称“源库”“目标库”)的表数据需要保持 ...
2026-04-28 很多分析师每天和数据打交道,但当被问到“标签是什么”“标签和指标有什么区别”“标签体系如何设计”时,却常常答不上来。 ...
2026-04-28箱线图(Box Plot)作为一种经典的数据可视化工具,广泛应用于统计学、数据分析、科研实证等领域,核心价值在于直观呈现数据的集 ...
2026-04-27实证分析是社会科学、自然科学、经济管理等领域开展研究的核心范式,其核心逻辑是通过对多维度数据的收集、分析与解读,揭示变量 ...
2026-04-27 很多数据分析师精通Excel函数和数据透视表,但当被问到“数据从哪里来”“表和视图有什么区别”“数据库管理系统和SQL是什么 ...
2026-04-27在大数据技术飞速迭代、数字营销竞争日趋激烈的今天,“精准触达、高效转化、成本可控”已成为企业营销的核心诉求。传统广告投放 ...
2026-04-24在游戏行业竞争白热化的当下,用户流失已成为制约游戏生命周期、影响营收增长的核心痛点。据行业报告显示,2024年移动游戏平均次 ...
2026-04-24 很多业务负责人开会常说“我们要数据驱动”,最后却变成“看哪张报表数据多就用哪个”,往往因为缺乏一套结构性的方法去搭建 ...
2026-04-24在Power BI数据可视化分析中,切片器是连接用户与数据的核心交互工具,其核心价值在于帮助使用者快速筛选目标数据、聚焦分析重点 ...
2026-04-23以数为据,以析促优——数据分析结果指导临床技术改进的实践路径 临床技术是医疗服务的核心载体,其水平直接决定患者诊疗效果、 ...
2026-04-23很多数据分析师每天盯着GMV、DAU、转化率,但当被问到“哪些指标是所有企业都需要的”“哪些指标是因行业而异的”“北极星指标和 ...
2026-04-23在数字化时代,客户每一次点击、浏览、下单、咨询等行为,都在传递其潜在需求与决策倾向——这些按时间顺序串联的行为轨迹,构成 ...
2026-04-22数据是数据分析、建模与业务决策的核心基石,而“数据清洗”作为数据预处理的核心环节,是打通数据从“原始杂乱”到“干净可用” ...
2026-04-22