京公网安备 11010802034615号
经营许可证编号:京B2-20210330
我们都是大数据时代的海狸_数据分析师
1973年,Alex Pentland还只是个大三学生,他到美国国家宇航局环境研究所实习,做一名电脑程序员。分给他的一项任务是开发一个利用人造卫星,从外太空数清加拿大海狸数量的软件。人造卫星离地球太远,海狸的个头太小,难以精确测度。Pentland灵机一动,想出一个主意:海狸会建造水坝,通过水坝的数量,可以推测海狸的数量。重要的不是去数每一个海狸,而是观察海狸们的生活方式。
在之后的四十多年里,Pentland一直沿着同样的思路思考问题,只不过他关心的不再是海狸的数量,而是人类社会的秩序。 Pentland的学术道路充满了戏剧性。他完成了海狸软件项目之后,对大学生活感到非常沮丧,中途辍学,去当卡车司机了。后来,他又想回到校园,本来报考的是密歇根大学,但他的女朋友去了波士顿,于是,Pentland就改为申请麻省理工学院和哈佛大学。他懒得再写一份新的申请书,直接复印了给密歇根大学的申请书。结果,麻省理工学院录取了他。
Pentland和麻省理工学院里别的科学怪人不同,他一直对心理学感兴趣,想利用人工智能等高科技分析人类的社会行为。拿到博士学位之后,Pentland曾经到斯坦福大学做过一段研究,1986年又回到麻省理工学院,逐步建立自己的团队和实验室。如今,他是麻省理工学院人类动力学实验室的主任,培养了一批批优秀的科技人才,还孵化了至少30家高科技公司。
传统的经济学模型认为每个人都是“理性人”,会独立地做出自己的决策。Pentland的研究则指出,人与人之间存在着广泛的信息交流和传播,这种信息的交流与传播会影响到人们的社会行为。传统的经济学模型依据简单的前提假设进行逻辑推理,而Pentland的研究则依靠大数据。他们有一个庞大的家庭数据库,实时观测30多个行为指标,每6分钟就更新一次数据。他们还有一个大学宿舍的实时监测系统,这些大学生刚入学,Pentland就送他们每人一部智能手机,这部智能手机中的软件会监测学生们的通话、社交活动等信息,累积连续记录了500,000个小时的数据。
与传统经济学理论的假设不同,Pentland发现,人们在做出决策的时候总是会模仿他人的行为。这是有道理的,模仿别人是最有效的学习方式。如果你买了一台新电脑,比如你过去用的是IBM的小黑本,但现在想换一台MacBook Air, 但操作系统跟过去用的不一样,你会怎么办?你是照着操作手册一条一条边读边摸索,还是请教一个用过Mac OS X的朋友呢?
你身边的人会在不知不觉中影响你的行为。比较经典的案例就是体重的变化。如果你身边有熟人体重增加了,你很可能也会慢慢变胖。不过,有趣的是,如果你身边有人成功减肥,却不会对你有太大的影响。而且,只要是熟人,就会影响你的行为,倒不一定非得是跟你亲密的好朋友。你的政治观点也会受到熟人的影响。一般来讲,政治观点相似的人们更愿意厮混在一起,而你和这群人呆的时间越久,彼此互相打气,潜移默化中,你的观点会比以前更加偏激。
这就是信息交流中的“双刃剑”。一方面,“独学而无友,则孤陋寡闻”,但另一方面,如果是抱团取暖,就容易党同伐异,虽起于意见之歧,实成于意气之激。Pentland曾经观察过一个投资者群体的行为。投资者们互相交流心得,比较各自的交易策略,慢慢地,成功投资者的身后会聚拢了一批追随者。一开始,这些成功投资者和他们的追随者的收益率会不断提高,但聚拢来的人太多了,就会出现“羊群效应”,原本能够脱颖而出的交易策略也就失效了,大家的收益率反而比不跟风的时候更低。
乔布斯曾经说过,创新就是把不同的事物联系起来。有创新力的人们知道怎样把自己的经验融会贯通,并尽可能地整合其他人的经验。我们要是想变得更有创新力,就必须注意:第一,社会学习是重要的。能模仿别人的经验就尽量模仿别人的经验,同时也要从别人的失败中吸取教训,这比自己在黑暗中摸索,把所有的错误再犯一遍要更划算。第二,多样性是重要的。如果所有的人都说你错,你可能还会有一线机会是对的;如果所有的人都说你对,那么你很可能离犯大错不远了。尽可能地让你的社交网络广泛,尽可能地让你的团队成员有差异性,最正常的状态应该是一半人说你对,一半人说你错。第三,逆势操作是重要的。站在潮流之外的人很可能看得最清楚。他们可能会选择和潮流相反的方向。他们有可能是极其高明的智者,也可能是脑子坏掉的疯子。你怎么能够判断他们的选择是否正确呢?尽可能地多接触背景不同,但各有各的智慧的高人,如果你发现在他们中间,有一个相当大的子集已经形成了逆势操作的共识,这个判断很可能会是对的。
在大数据时代,我们一路走过,留下来很多信息“面包屑”,这些信息“面包屑”暴露了我们的行为,甚至我们的心理活动和潜意识。当掌握了海量信息之后,我们有可能让一个团队或是社会变得更有效率和活力。大数据尤其在三个方面能够大显身手:一是社会动员(social mobilization)。比如在网络上发动大家寻找“人肉搜索”贪官,在台风、地震之后动员全社会的力量救灾。二是调节社会网络(tuning the social network)。当一个组织的内部变得“同质性”太强的时候,就要及时地补充新的成员,增加多样性;当一个群体内部的信息交流变得过于频繁、密集之后(比如,人们对传播谣言的兴趣超过了深入交流),适当地控制信息交流的速度,或有助于让人们更关注真实的重大问题。三是影响社会契约(leveraging social engagement)。人们生来就是群居动物,当我们彼此合作的时候,比如一起跳舞,一起划船,人的身体内就会释放出更多的内啡肽,让我们更加愉悦和兴奋。
但人们也会在合作中遇到“囚徒悖论”、“公地悲剧”这样的困境,这主要是因为人们各为己利,互相忌惮。如果能够改变激励机制,让人们从团队成员的成功得到奖励,而非单纯从自己的成功中得到奖励,就会激发人们的合作动力。在Kerry Patterson的《影响者:改变任何事物的力量》一书中就讲过一个故事,一个企业雇佣了很多刑满释放人员,而且成功地改造了这些人从监狱和帮派中沿袭下来的“丛林法则”,诀窍之一就是把他们分成一个个小组,奖励和惩罚都不针对个人,而是针对小组。
我们都是大数据时代的海狸。我们不仅能被观察者观测,被分析师研究,我们也能利用大数据,改变自己所在的团队,甚至社会。我们会建造自己的水坝。规则已经不一样了。你如何行动,取决于你如何认识未来的规则:在大数据时代,合作比竞争更重要,交流比交易更重要,灵活的同伴关系比冰冷的阶级斗争更重要。
【作者注】本文取材于Alex Pentland, Social Physics: How Good Ideas Spread—The Lessons from a new science, Scribe, 2014. Pentland还被誉为“可穿戴设备之父”,但当别人问他佩戴了哪些可穿戴设备的时候,他说:“我可不戴什么可穿戴设备,我不喜欢它们,因为它们不够有创造性”。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在统计调查与数据分析中,抽样方法分为简单随机抽样与复杂抽样两大类。简单随机抽样因样本均匀、计算简便,是基础的抽样方式,但 ...
2026-02-02在数据驱动企业发展的今天,“数据分析”已成为企业经营决策的核心支撑,但实践中,战略数据分析与业务数据分析两个概念常被混淆 ...
2026-02-02在数据驱动企业发展的今天,“数据分析”已成为企业经营决策的核心支撑,但实践中,战略数据分析与业务数据分析两个概念常被混淆 ...
2026-02-02B+树作为数据库索引的核心数据结构,其高效的查询、插入、删除性能,离不开节点间指针的合理设计。在日常学习和数据库开发中,很 ...
2026-01-30在数据库开发中,UUID(通用唯一识别码)是生成唯一主键、唯一标识的常用方式,其标准格式包含4个短横线(如550e8400-e29b-41d4- ...
2026-01-30商业数据分析的价值落地,离不开标准化、系统化的总体流程作为支撑;而CDA(Certified Data Analyst)数据分析师,作为经过系统 ...
2026-01-30在数据分析、质量控制、科研实验等场景中,数据波动性(离散程度)的精准衡量是判断数据可靠性、稳定性的核心环节。标准差(Stan ...
2026-01-29在数据分析、质量检测、科研实验等领域,判断数据间是否存在本质差异是核心需求,而t检验、F检验是实现这一目标的经典统计方法。 ...
2026-01-29统计制图(数据可视化)是数据分析的核心呈现载体,它将抽象的数据转化为直观的图表、图形,让数据规律、业务差异与潜在问题一目 ...
2026-01-29箱线图(Box Plot)作为数据分布可视化的核心工具,能清晰呈现数据的中位数、四分位数、异常值等关键统计特征,广泛应用于数据分 ...
2026-01-28在回归分析、机器学习建模等数据分析场景中,多重共线性是高频数据问题——当多个自变量间存在较强的线性关联时,会导致模型系数 ...
2026-01-28数据分析的价值落地,离不开科学方法的支撑。六种核心分析方法——描述性分析、诊断性分析、预测性分析、规范性分析、对比分析、 ...
2026-01-28在机器学习与数据分析领域,特征是连接数据与模型的核心载体,而特征重要性分析则是挖掘数据价值、优化模型性能、赋能业务决策的 ...
2026-01-27关联分析是数据挖掘领域中挖掘数据间潜在关联关系的经典方法,广泛应用于零售购物篮分析、电商推荐、用户行为路径挖掘等场景。而 ...
2026-01-27数据分析的基础范式,是支撑数据工作从“零散操作”走向“标准化落地”的核心方法论框架,它定义了数据分析的核心逻辑、流程与目 ...
2026-01-27在数据分析、后端开发、业务运维等工作中,SQL语句是操作数据库的核心工具。面对复杂的表结构、多表关联逻辑及灵活的查询需求, ...
2026-01-26支持向量机(SVM)作为机器学习中经典的分类算法,凭借其在小样本、高维数据场景下的优异泛化能力,被广泛应用于图像识别、文本 ...
2026-01-26在数字化浪潮下,数据分析已成为企业决策的核心支撑,而CDA数据分析师作为标准化、专业化的数据人才代表,正逐步成为连接数据资 ...
2026-01-26数据分析的核心价值在于用数据驱动决策,而指标作为数据的“载体”,其选取的合理性直接决定分析结果的有效性。选对指标能精准定 ...
2026-01-23在MySQL查询编写中,我们习惯按“SELECT → FROM → WHERE → ORDER BY”的语法顺序组织语句,直觉上认为代码顺序即执行顺序。但 ...
2026-01-23