京公网安备 11010802034615号
经营许可证编号:京B2-20210330
大数据的边界:被改变的与无法改变的
“大数据”的汹涌澎湃,让人们逐渐意识到,由此带来的,极有可能是一场发生在几乎所有领域的颠覆性革命。只是,虽然坊间有关大数据的论著很多,但敢于将这种趋势上升到“主义”高度的,恐怕非史蒂夫·洛尔莫属。身为在《纽约时报》撰稿长达二十余年的非虚构写作者和资深记者、编辑,因为长期从事数据科学报道,洛尔早在十多年前就敏锐地感受到“大数据”即将给人类带来的变化。而眼前的这本《大数据主义》,不同于此前的大多数同类论著的动人之处在于,它以一个在数据分析行业找到人生价值的年轻人、曾为脸谱网建立了最初的数据科学家团队的哈佛毕业生杰夫·哈梅巴赫的经历,以及人类数据时代的标杆——IBM公司的大数据生存法则为主线,在叙事中又穿插了大量相关人物的故事和观点,勾勒出了近几年大数据浪潮对人类生活诸多方面的深刻影响。
早在2012年初,史蒂夫·洛尔便先知先觉地以“大数据主义”为题,在《纽约时报》“周日评论”板块发表了一篇社论,网站点击量激增,很多读者还写了关于这篇文章的评论。《大数据主义》便是对上述主题进一步挖掘的成果。
杰夫·哈梅巴赫,这位曾在华尔街这个聪明人汇集的行业做金融数据分析,之后又加盟脸谱网,在从事数据科学研究的同时也为自己的人生赢得了财务自由。离开脸谱网后,他自己创办了一家名为Cloudera的公司,自任首席科学家,编写用于数据科学研究的软件。2012年夏天,年仅28岁的哈梅巴赫又转战医疗业,加入纽约西奈山伊坎医学院,领导一个数据小组,从事遗传信息的研究,为探索疾病模型的建立方法和治疗手段寻找突破口,这是他认为的目前能将数据科学研究投入应用的最佳途径。而作为一家有着上百年历史的科技巨头,IBM对数据技术的进展同样甚为关注,他们在较早时候就组建了研究团队,制定了战略方针,投入了大量资金,招募大批该领域的专家,团队人数至今已达2000人。其首席执行官甚至告诉洛尔:“我们把整个公司的前途都押在了大数据技术的应用上。”
大数据生存法则
自1946年计算机问世以来,便不可逆转地加速改变着人类的生活方式和进程。时至今日,海量存在于互联网及其他各处、能被人们获取的信息,早已由千字节(KB)、兆(MB)、千兆(GB)、太字节(TB),跃升为拍字节(PB)、艾字节(EB)、泽字节(ZB),乃至尧字节(YB)。据测算,如果将人类现存的信息全部汇集并存贮起来,需要用到的ipad,叠加起来的厚度可绕地球三分之二圈。正是这惊人的数据总量,使人类在处理信息时能经历从量变到质变的过程,就如同物质到了纳米级别,各种原有的特性都会发生惊人的突变,“大数据”概念的诞生,正是数据存量不断累积的必然结果。
面对不断生成的各种数据,尤其同一个系统或平台上生成的数据,尽管以人类的大脑很难理清它们相互之间的关系,对这些数据得以如此产生的前因后果更无法给出合乎逻辑的解释,但它们之间确实存在着一定的相关性。尽管以人类现有的理解能力看来,这种相关性并不十分清晰,甚至有几分神秘,但通过总结这一系列数据之间的生成规律,人们仍然可以比过去更为有效地决策,而不是像过去通常所做的那样,依靠个人直觉或是一些只可意会不可言传的经验来做出某个重要决定。因此,许多在过去看来无用的数据,今日都“变废为宝”了。举例来说,世界最大零售商沃尔玛通过对大数据统计和研究发现,男性顾客在购买婴儿尿片时,通常会顺便买上几瓶啤酒。尽管商家不知其中缘由,但还是果断推出了啤酒与尿布捆绑销售的促销方式,提升了啤酒销量。由此看来,正是大数据带来的定量分析方法,为人们的决策带来了新的参考依据。作为一种创新工具,它还催生了大量相关技术,如社交媒体、传感器信号、基因组信息等,不仅有利于经济增长,还可以帮助我们重塑构建世界的方式,甚至在一定程度上改变我们世界观。
尽管大数据技术刚刚起步,但如今可涵盖的应用领域已十分广泛:从挖掘数据帮助企业经营决策,到对社交媒体用户展开细致入微的数据分析,提高网站的广告点击率;从利用大数据培育性能前所未有的智能机器人,到推动一些传统产业的升级换代。此外,还有更为性命攸关的医疗行业的“大数据革命”。例如有人提出,许多慢性疾病并非个体基因引起,而是一种复杂的网络性紊乱,涉及从分子、细胞、组织、器官到人类社群的各个环节。因此他们将一组涉及年龄、病史、生活方式和环境等可能影响疾病的发生发展因素,通过复杂的数学模型,全部转化为数字,以便试验性地检测一个人三年内患上某种疾病的可能性。尽管从定量分析角度看,精密科学,如物理学、化学等学科更为成熟,预测结果也更准确,但人们仍在努力引导医疗行业向定量分析的方向发展,而非仅仅依靠经验对人的健康状况定性。
在美国某些研究机构中,大数据应用几乎可协助建立人类行为模型,帮助人们了解自身各种行为之间的关联关系,那些不曾为人所知的人类行为的奥秘也将慢慢得到破解。
另一个很有意思的例子,发生在IBM公司研制的智能机器人沃森身上。这个“人”在《危险边缘》节目中高超的信息处理速度,战胜了面对人类对手战无不胜的超级挑战者,令人想起当年深蓝战胜棋王卡斯帕罗夫的故事。似乎显得巧合的是,深蓝的发明者,同样是IBM公司,如今它又一次以辉煌战绩证明了在人工智能领域的领先地位,所不同的是,这次的胜利,离不开大数据技术的鼎力相助。
在IBM沃森实验室召开的一次学术会议上,人工智能专家希利斯更提出了一个极具前瞻性的观点:“机器人必须学会讲故事。”在希利斯看来,如果一个计算机系统只会提供答案,而不会“思考”和“解释”问题,那么无论运算速度多快,都不会有突破性的前景。这里所说的“讲故事”,其实就是在软件糅合数据、想法、推断,并形成决策时,对整个过程实施跟踪,让人们在使用过程中和过后都能知道计算机是如何一步一步完成其工作的。给出这样的解释,就能让人们知道机器人与我们之间的关系,也就是弄清楚,在整个决策过程中,有哪些部分工作是机器人完成的,有哪些是由人类所做的。
大数据真果真无懈可击?
既然如此神奇,大数据技术及其应用岂不是理应被当代渴望进步、增长的人们顶礼膜拜·史蒂夫·洛尔并不这样认为。大数据技术的应用,仅从其可靠性而言,就亟待改进。在近年来一些大公司的错误经营行为中,常常可找到大数据应用的影子。此外,伴随大数据技术渗透进人们生活的,还有个人隐私被泄露的风险。无论社交网络的使用,还是各种随身软件中内置的定位装置,甚至连个人的基因信息,都会在人们并不知情的情况下,被大数据拥有者有意或无意地获取,从而令个人信息的保护程序受到严重威胁。
这方面最典型的例子还要数安客诚公司。这家全美最大的数据代理商,在全球范围内收集了数亿名消费者的相关数据。这些公开或推断所得的信息包括年龄、种族、性别,党派,以及诸如对度假的期待、对健康的关注程度等非客观信息。在将这些数据归纳之后,这家网站就可轻易推断出大多数美国成年人在这些项目上的相关数据,其深入细致的程度无人可及。《纽约时报》的一位评论员甚至写道:“访问者登录之后就会发现,该网站不仅有大量与自己有关的信息,甚至还有描述详细的私生活,面对这种情况,他们可能会大吃一惊。”面对这种对个人隐私的严重侵犯,除了少数民间的隐私权倡导者提出抗议之外,无论从法律或技术层面,至今仍没能设计出有效的预防措施加以制止。
更为本质的问题还在于:尽管很多大型现代企业早已进入了“无法计量就无法管理”的时代,但在人类生活的其他方面,仍有许许多多重要的东西无法只用数据就可以说明或解决的。事实上,至少迄今为止,几乎所有能赋予我们的生活以终极意义的东西,如情感、信仰、人与人之间的爱,还有个体自身庄严阔大的精神世界,都绝不可能以数据来涵盖或表达。因此单纯的数据崇拜并非福音,面对人类生活的无数复杂微妙之处,任何形式的“大数据决策”,都有必要用谦卑来调和,以免误入歧途。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在数据分析全流程中,数据处理是基础,图形可视化是核心呈现手段——前者负责将杂乱无章的原始数据转化为干净、规范、可分析的格 ...
2026-04-07在数据分析与统计推断中,p值是衡量假设检验结果显著性的核心指标,其本质是在原假设(通常为“无效应”“无差异”)成立的前提 ...
2026-04-07在数字经济深度渗透的今天,数据已成为企业生存发展的核心资产,企业的竞争本质已转变为数据利用能力的竞争。然而,大量来自生产 ...
2026-04-07Python凭借简洁的语法、丰富的生态库,成为算法开发、数据处理、机器学习等领域的首选语言。但受限于动态类型、解释性执行的特性 ...
2026-04-03在深度学习神经网络中,卷积操作是实现数据特征提取的核心引擎,更是让模型“看懂”数据、“解读”数据的关键所在。不同于传统机 ...
2026-04-03当数字化转型从企业的“战略口号”落地为“生存之战”,越来越多的企业意识到,转型的核心并非技术的堆砌,而是数据价值的深度挖 ...
2026-04-03在日常办公数据分析中,数据透视表凭借高效的汇总、分组功能,成为Excel、WPS等办公软件中最常用的数据分析工具之一。其中,“计 ...
2026-04-02在数字化交互的全场景中,用户的每一次操作都在生成动态的行为轨迹——电商用户的“浏览商品→点击详情→加入购物车”,内容APP ...
2026-04-02在数字化转型深度推进的今天,企业数据已成为驱动业务增长、构建核心竞争力的战略资产,而数据安全则是守护这份资产的“生命线” ...
2026-04-02在数据驱动决策的浪潮中,数据挖掘与数据分析是两个高频出现且极易被混淆的概念。有人将二者等同看待,认为“做数据分析就是做数 ...
2026-04-01在数据驱动决策的时代,企业与从业者每天都会面对海量数据——电商平台的用户行为数据、金融机构的信贷风险数据、快消品牌的营销 ...
2026-04-01在数字化转型的浪潮中,企业数据已从“辅助运营的附属资源”升级为“驱动增长的核心资产”,而一套科学、可落地的企业数据管理方 ...
2026-04-01在数字化时代,每一位用户与产品的交互都会留下可追溯的行为轨迹——电商用户的浏览、加购、下单,APP用户的注册、登录、功能使 ...
2026-03-31在日常数据统计、市场调研、学术分析等场景中,我们常常需要判断两个分类变量之间是否存在关联(如性别与消费偏好、产品类型与满 ...
2026-03-31在CDA(Certified Data Analyst)数据分析师的职场实战与认证考核中,“可解释性建模”是核心需求之一——企业决策中,不仅需要 ...
2026-03-31多层感知机(MLP,Multilayer Perceptron)作为深度学习中最基础、最经典的神经网络模型,其结构设计直接决定了模型的拟合能力、 ...
2026-03-30在TensorFlow深度学习实战中,数据集的加载与预处理是基础且关键的第一步。手动下载、解压、解析数据集不仅耗时费力,还容易出现 ...
2026-03-30在CDA(Certified Data Analyst)数据分析师的日常工作中,“无监督分组、挖掘数据内在聚类规律”是高频核心需求——电商场景中 ...
2026-03-30机器学习的本质,是让模型通过对数据的学习,自主挖掘规律、实现预测与决策,而这一过程的核心驱动力,并非单一参数的独立作用, ...
2026-03-27在SQL Server数据库操作中,日期时间处理是高频核心需求——无论是报表统计中的日期格式化、数据筛选时的日期类型匹配,还是业务 ...
2026-03-27