京公网安备 11010802034615号
经营许可证编号:京B2-20210330
大数据的边界:被改变的与无法改变的
“大数据”的汹涌澎湃,让人们逐渐意识到,由此带来的,极有可能是一场发生在几乎所有领域的颠覆性革命。只是,虽然坊间有关大数据的论著很多,但敢于将这种趋势上升到“主义”高度的,恐怕非史蒂夫·洛尔莫属。身为在《纽约时报》撰稿长达二十余年的非虚构写作者和资深记者、编辑,因为长期从事数据科学报道,洛尔早在十多年前就敏锐地感受到“大数据”即将给人类带来的变化。而眼前的这本《大数据主义》,不同于此前的大多数同类论著的动人之处在于,它以一个在数据分析行业找到人生价值的年轻人、曾为脸谱网建立了最初的数据科学家团队的哈佛毕业生杰夫·哈梅巴赫的经历,以及人类数据时代的标杆——IBM公司的大数据生存法则为主线,在叙事中又穿插了大量相关人物的故事和观点,勾勒出了近几年大数据浪潮对人类生活诸多方面的深刻影响。
早在2012年初,史蒂夫·洛尔便先知先觉地以“大数据主义”为题,在《纽约时报》“周日评论”板块发表了一篇社论,网站点击量激增,很多读者还写了关于这篇文章的评论。《大数据主义》便是对上述主题进一步挖掘的成果。
杰夫·哈梅巴赫,这位曾在华尔街这个聪明人汇集的行业做金融数据分析,之后又加盟脸谱网,在从事数据科学研究的同时也为自己的人生赢得了财务自由。离开脸谱网后,他自己创办了一家名为Cloudera的公司,自任首席科学家,编写用于数据科学研究的软件。2012年夏天,年仅28岁的哈梅巴赫又转战医疗业,加入纽约西奈山伊坎医学院,领导一个数据小组,从事遗传信息的研究,为探索疾病模型的建立方法和治疗手段寻找突破口,这是他认为的目前能将数据科学研究投入应用的最佳途径。而作为一家有着上百年历史的科技巨头,IBM对数据技术的进展同样甚为关注,他们在较早时候就组建了研究团队,制定了战略方针,投入了大量资金,招募大批该领域的专家,团队人数至今已达2000人。其首席执行官甚至告诉洛尔:“我们把整个公司的前途都押在了大数据技术的应用上。”
大数据生存法则
自1946年计算机问世以来,便不可逆转地加速改变着人类的生活方式和进程。时至今日,海量存在于互联网及其他各处、能被人们获取的信息,早已由千字节(KB)、兆(MB)、千兆(GB)、太字节(TB),跃升为拍字节(PB)、艾字节(EB)、泽字节(ZB),乃至尧字节(YB)。据测算,如果将人类现存的信息全部汇集并存贮起来,需要用到的ipad,叠加起来的厚度可绕地球三分之二圈。正是这惊人的数据总量,使人类在处理信息时能经历从量变到质变的过程,就如同物质到了纳米级别,各种原有的特性都会发生惊人的突变,“大数据”概念的诞生,正是数据存量不断累积的必然结果。
面对不断生成的各种数据,尤其同一个系统或平台上生成的数据,尽管以人类的大脑很难理清它们相互之间的关系,对这些数据得以如此产生的前因后果更无法给出合乎逻辑的解释,但它们之间确实存在着一定的相关性。尽管以人类现有的理解能力看来,这种相关性并不十分清晰,甚至有几分神秘,但通过总结这一系列数据之间的生成规律,人们仍然可以比过去更为有效地决策,而不是像过去通常所做的那样,依靠个人直觉或是一些只可意会不可言传的经验来做出某个重要决定。因此,许多在过去看来无用的数据,今日都“变废为宝”了。举例来说,世界最大零售商沃尔玛通过对大数据统计和研究发现,男性顾客在购买婴儿尿片时,通常会顺便买上几瓶啤酒。尽管商家不知其中缘由,但还是果断推出了啤酒与尿布捆绑销售的促销方式,提升了啤酒销量。由此看来,正是大数据带来的定量分析方法,为人们的决策带来了新的参考依据。作为一种创新工具,它还催生了大量相关技术,如社交媒体、传感器信号、基因组信息等,不仅有利于经济增长,还可以帮助我们重塑构建世界的方式,甚至在一定程度上改变我们世界观。
尽管大数据技术刚刚起步,但如今可涵盖的应用领域已十分广泛:从挖掘数据帮助企业经营决策,到对社交媒体用户展开细致入微的数据分析,提高网站的广告点击率;从利用大数据培育性能前所未有的智能机器人,到推动一些传统产业的升级换代。此外,还有更为性命攸关的医疗行业的“大数据革命”。例如有人提出,许多慢性疾病并非个体基因引起,而是一种复杂的网络性紊乱,涉及从分子、细胞、组织、器官到人类社群的各个环节。因此他们将一组涉及年龄、病史、生活方式和环境等可能影响疾病的发生发展因素,通过复杂的数学模型,全部转化为数字,以便试验性地检测一个人三年内患上某种疾病的可能性。尽管从定量分析角度看,精密科学,如物理学、化学等学科更为成熟,预测结果也更准确,但人们仍在努力引导医疗行业向定量分析的方向发展,而非仅仅依靠经验对人的健康状况定性。
在美国某些研究机构中,大数据应用几乎可协助建立人类行为模型,帮助人们了解自身各种行为之间的关联关系,那些不曾为人所知的人类行为的奥秘也将慢慢得到破解。
另一个很有意思的例子,发生在IBM公司研制的智能机器人沃森身上。这个“人”在《危险边缘》节目中高超的信息处理速度,战胜了面对人类对手战无不胜的超级挑战者,令人想起当年深蓝战胜棋王卡斯帕罗夫的故事。似乎显得巧合的是,深蓝的发明者,同样是IBM公司,如今它又一次以辉煌战绩证明了在人工智能领域的领先地位,所不同的是,这次的胜利,离不开大数据技术的鼎力相助。
在IBM沃森实验室召开的一次学术会议上,人工智能专家希利斯更提出了一个极具前瞻性的观点:“机器人必须学会讲故事。”在希利斯看来,如果一个计算机系统只会提供答案,而不会“思考”和“解释”问题,那么无论运算速度多快,都不会有突破性的前景。这里所说的“讲故事”,其实就是在软件糅合数据、想法、推断,并形成决策时,对整个过程实施跟踪,让人们在使用过程中和过后都能知道计算机是如何一步一步完成其工作的。给出这样的解释,就能让人们知道机器人与我们之间的关系,也就是弄清楚,在整个决策过程中,有哪些部分工作是机器人完成的,有哪些是由人类所做的。
大数据真果真无懈可击?
既然如此神奇,大数据技术及其应用岂不是理应被当代渴望进步、增长的人们顶礼膜拜·史蒂夫·洛尔并不这样认为。大数据技术的应用,仅从其可靠性而言,就亟待改进。在近年来一些大公司的错误经营行为中,常常可找到大数据应用的影子。此外,伴随大数据技术渗透进人们生活的,还有个人隐私被泄露的风险。无论社交网络的使用,还是各种随身软件中内置的定位装置,甚至连个人的基因信息,都会在人们并不知情的情况下,被大数据拥有者有意或无意地获取,从而令个人信息的保护程序受到严重威胁。
这方面最典型的例子还要数安客诚公司。这家全美最大的数据代理商,在全球范围内收集了数亿名消费者的相关数据。这些公开或推断所得的信息包括年龄、种族、性别,党派,以及诸如对度假的期待、对健康的关注程度等非客观信息。在将这些数据归纳之后,这家网站就可轻易推断出大多数美国成年人在这些项目上的相关数据,其深入细致的程度无人可及。《纽约时报》的一位评论员甚至写道:“访问者登录之后就会发现,该网站不仅有大量与自己有关的信息,甚至还有描述详细的私生活,面对这种情况,他们可能会大吃一惊。”面对这种对个人隐私的严重侵犯,除了少数民间的隐私权倡导者提出抗议之外,无论从法律或技术层面,至今仍没能设计出有效的预防措施加以制止。
更为本质的问题还在于:尽管很多大型现代企业早已进入了“无法计量就无法管理”的时代,但在人类生活的其他方面,仍有许许多多重要的东西无法只用数据就可以说明或解决的。事实上,至少迄今为止,几乎所有能赋予我们的生活以终极意义的东西,如情感、信仰、人与人之间的爱,还有个体自身庄严阔大的精神世界,都绝不可能以数据来涵盖或表达。因此单纯的数据崇拜并非福音,面对人类生活的无数复杂微妙之处,任何形式的“大数据决策”,都有必要用谦卑来调和,以免误入歧途。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在中介效应分析(或路径分析)中,间接效应是衡量“自变量通过中介变量影响因变量”这一间接路径强度与方向的核心指标。不同于直 ...
2025-12-30数据透视表是数据分析中高效汇总、多维度分析数据的核心工具,能快速将杂乱数据转化为结构化的汇总报表。在实际分析场景中,我们 ...
2025-12-30在金融投资、商业运营、用户增长等数据密集型领域,量化策略凭借“数据驱动、逻辑可验证、执行标准化”的优势,成为企业提升决策 ...
2025-12-30CDA(Certified Data Analyst),是在数字经济大背景和人工智能时代趋势下,源自中国,走向世界,面向全行业的专业技能认证,旨 ...
2025-12-29在数据分析领域,周期性是时间序列数据的重要特征之一——它指数据在一定时间间隔内重复出现的规律,广泛存在于经济、金融、气象 ...
2025-12-29数据分析师的核心价值在于将海量数据转化为可落地的商业洞察,而高效的工具则是实现这一价值的关键载体。从数据采集、清洗整理, ...
2025-12-29在金融、零售、互联网等数据密集型行业,量化策略已成为企业提升决策效率、挖掘商业价值的核心工具。CDA(Certified Data Analys ...
2025-12-29CDA中国官网是全国统一的数据分析师认证报名网站,由认证考试委员会与持证人会员、企业会员以及行业知名第三方机构共同合作,致 ...
2025-12-26在数字化转型浪潮下,审计行业正经历从“传统手工审计”向“大数据智能审计”的深刻变革。教育部发布的《大数据与审计专业教学标 ...
2025-12-26统计学作为数学的重要分支,是连接数据与决策的桥梁。随着数据规模的爆炸式增长和复杂问题的涌现,传统统计方法已难以应对高维、 ...
2025-12-26数字化浪潮席卷全球,数据已成为企业核心生产要素,“用数据说话、用数据决策”成为企业生存与发展的核心逻辑。在这一背景下,CD ...
2025-12-26箱线图(Box Plot)作为数据分布可视化的核心工具,凭借简洁的结构直观呈现数据的中位数、四分位数、异常值等关键信息,广泛应用 ...
2025-12-25在数据驱动决策的时代,基于历史数据进行精准预测已成为企业核心需求——无论是预测未来销售额、客户流失概率,还是产品需求趋势 ...
2025-12-25在数据驱动业务的实践中,CDA(Certified Data Analyst)数据分析师的核心工作,本质上是通过“指标”这一数据语言,解读业务现 ...
2025-12-25在金融行业的数字化转型进程中,SQL作为数据处理与分析的核心工具,贯穿于零售银行、证券交易、保险理赔、支付结算等全业务链条 ...
2025-12-24在数据分析领域,假设检验是验证“数据差异是否显著”的核心工具,而独立样本t检验与卡方检验则是其中最常用的两种方法。很多初 ...
2025-12-24在企业数字化转型的深水区,数据已成为核心生产要素,而“让数据可用、好用”则是挖掘数据价值的前提。对CDA(Certified Data An ...
2025-12-24数据分析师认证考试全面升级后,除了考试场次和报名时间,小伙伴们最关心的就是报名费了,报 ...
2025-12-23在Power BI数据可视化分析中,矩阵是多维度数据汇总的核心工具,而“动态计算平均值”则是矩阵分析的高频需求——无论是按类别计 ...
2025-12-23在SQL数据分析场景中,“日期转期间”是高频核心需求——无论是按日、周、月、季度还是年度统计数据,都需要将原始的日期/时间字 ...
2025-12-23