
大数据时代带来更理性、更可靠的决策_数据分析师考试
究竟是什么魔力,让“大数据”这一概念得到全球各国的普遍关注?到底什么是“大数据”?它能够在多大程度上改变我们的生活?在我们寻求对这些重要问题的解答时,牛津大学网络学院互联网研究所教授维克托·迈尔-舍恩伯格出现在我们的视野中;希望我们对他的采访,可以帮助读者们找到这些疑问的答案。
最近一段时间,“大数据”的热潮席卷全球,正如美国《福布斯》杂志所说的那样,如今,在浏览新闻网站或者参加行业会议时,想看不见或听不到“大数据”这个词几乎不可能。去年,美国6个联邦政府部门宣布将启动“大数据研发计划”,投资超过2亿美元以改进从海量和复杂的数据中获取知识的能力。同时,我国科技部发布的“‘十二五’国家科技计划信息技术领域2013年度备选项目征集指南”也把大数据研究列在首位。眼下召开的全国“两会”上,有全国人大代表提出要把发展“大数据”上升为国家战略。
究竟是什么魔力,让“大数据”这一概念得到全球各国的普遍关注?到底什么是“大数据”?它能够在多大程度上改变我们的生活?眼前对“大数据”的关注度是否已经过高了呢?在我们寻求对这些重要问题的解答时,英国牛津大学网络学院互连网研究所教授维克托·迈尔-舍恩伯格(Viktor Mayer-Schonberger)出现在我们的视野中,讨论“大数据”,他如果不是最合适的人选,也起码是合适人选之一。
20多年来,维克托一直致力于网络经济、信息与创新、信息监管、网络规范与战略管理的研究。还在“大数据”这一概念众说纷纭时,维克托就已进行了系统深入的研究,2010年,他在英国《经济学人》杂志上和数据编辑肯尼思·库克耶一起,发表了长达14页的大数据专题文章。称他为最早洞见大数据时代发展趋势的数据科学家之一,并不为过。
《经济学人》说,在大数据领域,维克托是最受人尊敬的全方位发言人之一;美国《科学》杂志说,若要发起一场关于这个问题的深入讨论,没有比他更好的发起者了。
除了理论研究以外,维克托还非常接近实战世界,早在上大学期间,他就先后成立了两家数据安全和制作反病毒软件的公司,而在他写就的《大数据时代》一书中,那些最前沿、最崭新的大数据应用案例,都得益于他多年来紧跟企业与商业应用的步伐。他的咨询客户中,不乏微软、惠普、IBM、亚马逊、脸书、推特、VISA等大数据先锋们。
目前,维克托还是欧盟互联网官方政策背后的重要制定者与参与者,尤为重要的是,他还任职过新加坡商务部、文莱国防部、科威特商务部等部门,特别熟悉亚洲信息产业的发展与战略布局。
希望我们通过电子邮件对维克托的采访,可以帮助读者们找到这些疑问的答案。
失去微观层面上的精确度,为的是获取宏观层面上的洞察力
文汇报:今天,“大数据”已经成为全球炙手可热的词汇,您是从何时开始关注它的?
迈尔-舍恩伯格:多年来,我一直致力于研究数据在信息经济的发展中所扮演的重要角色,我与肯尼思·库克耶(Kenneth Cukier,我的合著者)一起发布了一系列相关研究报告。大约三年前,在我自己组织的一次会议上,我俩都意识到“大数据”的存在已经不仅仅是一种炒作或者什么宏大的宣言了,而将实实在在地改变我们的工作、生活以及整个社会,于是,我们决定就此专题写一本书。
文汇报:那么在您看来,究竟什么是大数据时代?它和传统数据时代到底有什么差别?我们知道,像沃尔玛这样的公司早在多年前,就已经将大数据运用到了商业实践中。
迈尔-舍恩伯格:事实上,过去几个世纪以来,数据已经在科学家们制定决策的过程中扮演了一定的角色,而过去几十年间,这一做法又延伸到了一些公司的决策制定过程。但在大数据时代之前,数据是非常匮乏的,我们拥有的数据非常少。因此,我们的决策、我们构建的制度都是建立在这样一种数据匮乏的基础上。今天,一切变得非常不同,它体现在三个不同的方面,我们称之为“更多”、“更乱”和“相关性”。
文汇报:这三个特征也是您在《大数据时代》一书中非常强调的,它们甚至会颠覆我们过去的整个思维方式。您能否具体描述一下这到底是怎样的过程?
迈尔-舍恩伯格:好的。我所说的“更多”,是指围绕任何一个我们想要调查的特定问题,或者是需要我们回答的疑问,我们都可以比过去任何时候获取更多的数据。在大数据时代,我们可以利用海量的数据得到非常详尽的见解,这是传统方法所不能做到的。
可以这么说,大数据时代和传统数据时代的区别,就像分辨率在200万像素的旧数码照片,一下子提高到2400万像素那样。后者是一个非常非常大的文件,它可以提供更多细节。它可以让我们不断放大,看清楚小到颗粒状的细部,而具有较低分辨率的图像在这些细节方面就会非常模糊。
基因信息就是一个很好的例子。美国有一家叫23andMe的新公司提供个人的DNA测试分析,以发现一些疾病征兆。它的成本只有两三百美元,并提醒客户关注会发展成严重疾病的个人癖好。但是公司并不对每个客户的全基因组进行测序,而是针对已知特征的位点(经研究得知因某种疾病存在,而可能会出问题的DNA片段)进行比对。这意味着,当一个新的特征被研究发现时,23andMe公司就不得不再次对客户的DNA进行测序并建立更完整的档案。
苹果公司的史蒂夫·乔布斯尝试了非常不同的方法。他得了癌症后,就有了自己全部的基因密码,数十亿的碱基对测序。这花费了他超过10万美元的成本,但这可以让医生完整地洞察他的基因密码。每当药物由于乔布斯的癌症病变而失去有效性,他们就可以根据乔布斯特定的基因信息,寻找到有效的替代药物。遗憾的是,这也没有保住乔布斯的命,但是在这一过程中获得的数据,已经延长了他的生命。
由于技术创新,现在收集大量信息的成本变得越来越低。数年前,史蒂夫·乔布斯花费了六位数的金额才做到的事情,今天,不到1000美元就可以获得同样的服务了。
而“更乱”指的是,在小数据时代,因为数据是如此稀少,我们可以确保自己收集的每一个数据点都是非常准确的。相比较而言,大数据往往是凌乱和质量参差不齐的。但是,相比以高额代价来保证测量和收集少量数据的精确性,在大数据时代,我们将接受这种杂乱,因为我们通常需要的只是一个大方向,而不是努力了解一种现象的细枝末节。我们并不是要完全放弃精确性,我们只是放弃对精确性的热衷。我们失去微观层面上的精确度,为的是获取在宏观层面上的洞察力。
电脑翻译就是其中一个例子。1990年代,IBM的研究人员使用了一套非常精确的文件(加拿大议会记录的法语和英语版)来训练计算机。尽管计算机完全按照规则行事,但基于此的翻译质量却非常低。然后,谷歌在2006年开始介入这一领域,他们没有使用来自加拿大政府的几百万句标准翻译,而是使用随手可得的任何语言。他们在整个互联网上,利用数十亿页质量参差不齐的翻译,这些翻译不怎么标准——但是,这是一个小的权衡——他们能够使用的数据大大增加了,结果翻译质量反而提高了。与更少、更标准的数据相比,更多凌乱的资料完胜了。
“更多”和“更乱”组合到一起,产生了第三个特点,“相关性”,这也是大数据带给我们的最根本性的转变。我们的思维将从因果关系转向相关关系。至今为止的整个人类历史里,全世界的人们都在寻找事件发生的原因,探寻“为什么”。但我们对原因的执着探索往往带领我们走向错误的方向。所以,我们建议,在大数据时代,在许多情况下,我们可以仅仅寻找“是什么”,而不必完全理解“为什么”。例如,对于大数据的分析中,我们可以发现机器震动中一些非常微小的变化,这些变化表明机器将很快损坏。这使我们能够在部分机器零件报废前更换它们,这被称为“预测性维护”,它可以节省不少钱。但除了提高消费效率,“相关性”还可以做更多的事情。
比如对早产儿而言,即使他们长大成人,这些小宝宝仍旧是非常脆弱的,哪怕是遇上很小的感染。医生卡罗琳·麦格雷戈研究如何给这些婴儿最好的生存机会。使用大数据分析,每分钟可以搜集这些婴儿超过一千个数据点,麦格雷戈发现一个令人震惊的事实:每当这些早产儿出现非常稳定的标志时,他们的身体其实并不稳定,正在准备发病。有了这方面的知识,她就能在一个非常早期的阶段,确定婴儿是否需要药物治疗,从而挽救更多孩子的生命。
这是典型的大数据应用:医生麦格雷戈通过更全面的传感器,可以比以往搜集到更多的数据。她也接受,在这种情况下,并不是所有的数据都是准确的,从而也会导致她分析中存在不精确的可能。她把“为什么”这个问题放在一边,而用一种更务实的方式来提供帮助,她寻找“是什么”,这才是一个更好的预见感染的办法。
我们应该记住:大数据也可以挽救生命。
正确使用大数据,可以改善医疗、教育水平,促进人类发展
文汇报:大数据时代的到来,是否将会引领新一轮的产业革命?我们应该怎样客观地看待它的价值?
迈尔-舍恩伯格:大数据将会极大地改变社会生活的方方面面,但是它的价值能否等同于工业革命,这个问题目前还不好说。我个人猜想可能不能,原因是在19世纪初工业革命刚刚开始的时候,经济发展还处于非常低的水平上,所以相对来说,当时的人们从工业化过程中所能获得的生活水平的提升是非常巨大的,今天则非常不一样了。
我们真正想强调的是,大数据时代将推动我们从根本上改变企业的运作方式,以及我们在社会中的生活方式。大数据可以提高人类制定决策的能力,这种提高将是大幅度的。有了大数据,我们不是简单地提高经济效率,而是将挽救人类生命,延长我们自己的寿命。我们还将改善教育,促进发展。同样的道理,我们必须要小心。大数据同样也有“阴暗面”,正如我们在书中讨论的那样。如果应用错误,大数据也可能会化为一个强有力的武器。因此,我们必须确保正确使用大数据。
文汇报:您提到了大数据时代的“阴暗面”,它的到来会加深数字化鸿沟吗?
迈尔-舍恩伯格:大数据是一个强大的工具。因此,如果我们使用了错误的方式,它就可能会加深数字鸿沟。但是,如果我们用得好,相信大数据就可能会改善我们的生活,尤其是对那些不那么幸运的人而言。在这一点上,你可以把它想像成火、电或是抗生素等等。
文汇报:也就是说,您对大数据的价值认知,是基于一个更长时段的历史发展。
迈尔-舍恩伯格:如果以非常广阔的视角来看人类历史,我认为,人类一直想要理解世界。起初,许多人的“知识”是基于迷信和预感。知识的发展非常慢,人们需要非常深层次的思考,再通过实践进行检验,以确保知识是可用的。
但即使如此,我们的知识仍旧不是百分之百可靠的。例如,19世纪,路易·巴斯德一直在研究狂犬病疫苗,当时有一个被狗严重咬伤而染上狂犬病的小孩,父母担心孩子会死去,恳求巴斯德试试他的试验性疫苗。巴斯德照做了,孩子活了下来。随后的庆祝活动上,巴斯德以一个英雄的身份出现,他挽救了年轻孩子的性命。但是事实的确如此吗?今天,通过更深入的研究,我们知道,在被类似病狗咬到的儿童中,只有25%会感染狂犬病。所以75%的儿童哪怕使用了无效的疫苗,仍旧可以存活下来。这个故事告诉我们,我们以为自己生活在非常科学的世界中,但其实,我们拥有的数据非常少。一种新的治疗方法在被证明安全之前,需要做几十个甚至几百个医学实验来进行测试。但这仍旧太少,人们还是会受到伤害,因为我们依靠的数据太少。在大数据时代,我们可以告别数据匮乏,做出的决策将更理性,更基于事实,当然也更可靠。这是大数据时代带给我们的希望——更好的决策将会代替我们过往那些可疑的迷信和不可靠的人类预感。
文汇报:我们看到,麦肯锡公司2011年就发布报告推测,如果把大数据用于美国的医疗保健,一年可产生潜在价值3000亿美元,用于欧洲的公共管理可获得年度潜在价值2500亿欧元;服务提供商利用个人位置数据可获得潜在的消费者年度盈余6000亿美元;利用大数据分析,零售商可增加运营利润60%,制造业设备装配成本会减少50%。“数据创造价值”的预测已经非常振奋人心。在您看来,大数据是否只是一门价值不菲的生意?
迈尔-舍恩伯格:不,大数据可以做更多。医疗方面,我们前面已经提过,只是分析一些重要的征兆,早产婴儿的感染出现明显症状的数小时前,医生就可以预见其生病。
同样,通过大数据分析,我们也可以找出学校教科书中的哪一部分对学生而言效果最好,也可以找出效果不好的部分。到现在为止,我们只能按照人类的预感,即教师自己判断学生在理解特定课程时是否会有疑问;但在大数据时代,我们有实际的数据可以参考,例如数据显示,电子书籍的某些页面被看过许多遍,因为它让学生感觉费解,据此可以调整我们的教材。这将从根本上改变教育。
或者举公共政策为例:Inrix是为智能手机提供导航软件的公司,它还提供实时的交通数据。之所以能做到这一点,是因为每个用户本身都成为了交通流量状况的传感器,把位置和速度信息都发回Inrix公司。这样一来,就可以给行进在交通堵塞路段周围的客户提供良好服务。Inrix公司有一大堆人们的活动数据,这还将有助于城市规划者了解大家的通勤模式,人们从哪里出发去工作,然后返回,并建设基础设施,如道路和铁路。这是最有效的应用。节省钱的同时,也有利于整个社会的管理。
文汇报:大数据对于商业决策、学术研究乃至国家治理的作用是显而易见的;但是对日常生活中的普通人而言,他们一定会从中受益吗?为什么在大数据时代,还是有不少人主张远离过载的信息和数据、返璞归真回到传统的社群生活之中呢?个人生活空间一定得从“简单平面”转变到“多维存在”才有意义吗?
迈尔-舍恩伯格:千百年来,人类已经经历的世界,都是在少量数据的基础上产生很多想法的世界。海员们结束长途航行后回来,地图才会在这一次经验的基础上进行重新绘制。这显然不会很精确。经过试验和犯错的周而复始,人类发展得非常缓慢。但是,当我们只有非常少的数据时,这是理所当然的结果。今天,我们有这么多的数据,难怪人类会不堪重负。但是,现在大数据可以提供帮助。如果人类不太善于消化这些过多的信息,大数据分析可以帮助我们将信息进行过滤,并进一步可视化,使我们能够轻松地加以使用。
人们尚未普遍具备与大数据时代相匹配的思维和技能
文汇报:有专家认为,大数据的未来是数据的APP(加速并行处理)而非基础构架;也就是说,仅仅有数据平台和基础构架是无法创造长期价值的。对此您怎么看?
迈尔-舍恩伯格:我们认为,大数据时代将至少需要和过去时代一样多的人的独创性。同时,巨大的资源才是未来时代的金矿,那些拥有这些数据资源的人将获得的回报是不可想像的。
文汇报:大数据时代,数据都是透明的,我们如何在保护个人隐私、商业机密和国家安全之间取得平衡?您所谓的“互联网遗忘运动”会是最佳药方吗?
迈尔-舍恩伯格:大数据时代所面临的挑战是,我们发现了隐藏在数据背后的价值,所以,保留这些数据,然后一遍遍地重复使用数据,往往成为一种明智的选择。同时,现行的保护个人隐私的法律,特别在西方,针对的是一个传统数据的世界,而不是一个大数据世界。这就需要我们在保护隐私的规则方面作出调整。我们建议,可以通过调整相关保护规则来实现这一目标,正像你所提到的,我们可以在一定时间以后,选择遗忘这些数据。
文汇报:大数据时代是一个海量数据有待处理的时代,同时又是一个海量无用信息需要删除的时代。这是否就是您在《删除》一书中强调我们要有所取舍的原因所在?
迈尔-舍恩伯格:是。在某种程度上,大数据本身也可以加强隐私的保护。因为如果有一百万个数据点,一个单独的数据点就不再那么重要了,这和传统数据时代非常不一样。随着时间的推移,忘记其中一些数据,并不会破坏整个大数据的运行和使用。
文汇报:大数据现在在全球究竟发展到了什么阶段?处理大数据的技术是否已经在全世界范围内普及?
迈尔-舍恩伯格:管理和处理大数据的技术都已经存在了,而且并不是非常昂贵。但是,有一样东西目前仍旧非常缺乏,那就是我们的思维——以理解数据背后所隐藏的巨大价值,以及提取这种价值的专门技能。今天,全球范围内,人们还没有普遍具备这种思维和技能,但是我相信,在未来,这种情况会发生改变。我们预计,世界各地的许多大学将提供针对大数据分析的课程,来培训大数据时代所需要的技能。
文汇报:历次产业技术革命,中国似乎都是学习者和模仿者;和上几轮产业技术革命不同的是,大数据时代,中国几乎和欧美发达国家同时开始技术研发,中国人口又居世界首位,将会成为产生数据量最多的国家。您看好中国在新时代的发展前景吗?中国在大数据时代是否有创新和领先的可能?
迈尔-舍恩伯格:是的,我们对此非常乐观。中国很可能成为大数据这一领域的先驱。在大数据时代,中国有很多优势:中国人都受过良好的教育,特别是在数学和统计方面(这是非常重要的)。中国是一个巨大的多元化社会,这会创造大量机会来创造大数据这一资源,并建立大数据应用。同样的道理,对于大数据的蓬勃发展,我们还需要相匹配的思维方式,有尝试新事物和持续创新的愿望,以实证事实来作为我们决策的依据。因此,和许多其他社会一样,大数据时代的确也会给中国带来非常大的变化。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
CDA数据分析师与数据指标:基础概念与协同逻辑 一、CDA 数据分析师:数据驱动时代的核心角色 1.1 定义与行业价值 CDA(Certified ...
2025-08-22Power Query 移动加权平均计算 Power Query 移动加权平均设置全解析:从原理到实战 一、移动加权平均法的核心逻辑 移动加权平均 ...
2025-08-22描述性统计:CDA数据分析师的基础核心与实践应用 一、描述性统计的定位:CDA 认证的 “入门基石” 在 CDA(Certified Data Analy ...
2025-08-22基于 Python response.text 的科技新闻数据清洗去噪实践 在通过 Python requests 库的 response.text 获取 API 数据后,原始数据 ...
2025-08-21基于 Python response.text 的科技新闻综述 在 Python 网络爬虫与 API 调用场景中,response.text 是 requests 库发起请求后获取 ...
2025-08-21数据治理新浪潮:CDA 数据分析师的战略价值与驱动逻辑 一、数据治理的多维驱动引擎 在数字经济与人工智能深度融合的时代,数据治 ...
2025-08-21Power BI 热力地图制作指南:从数据准备到实战分析 在数据可视化领域,热力地图凭借 “直观呈现数据密度与分布趋势” 的核心优势 ...
2025-08-20PyTorch 矩阵运算加速库:从原理到实践的全面解析 在深度学习领域,矩阵运算堪称 “计算基石”。无论是卷积神经网络(CNN)中的 ...
2025-08-20数据建模:CDA 数据分析师的核心驱动力 在数字经济浪潮中,数据已成为企业决策的核心资产。CDA(Certified Data Analyst)数据分 ...
2025-08-20KS 曲线不光滑:模型评估的隐形陷阱,从原因到破局的全指南 在分类模型(如风控违约预测、电商用户流失预警、医疗疾病诊断)的评 ...
2025-08-20偏态分布:揭开数据背后的非对称真相,赋能精准决策 在数据分析的世界里,“正态分布” 常被视为 “理想模型”—— 数据围绕均值 ...
2025-08-19CDA 数据分析师:数字化时代的价值创造者与决策智囊 在数据洪流席卷全球的今天,“数据驱动” 已从企业战略口号落地为核心 ...
2025-08-19CDA 数据分析师:善用 Power BI 索引列,提升数据处理与分析效率 在 Power BI 数据分析流程中,“数据准备” 是决定后续分析质量 ...
2025-08-18CDA 数据分析师:巧用 SQL 多个聚合函数,解锁数据多维洞察 在企业数据分析场景中,单一维度的统计(如 “总销售额”“用户总数 ...
2025-08-18CDA 数据分析师:驾驭表格结构数据的核心角色与实践应用 在企业日常数据存储与分析场景中,表格结构数据(如 Excel 表格、数据库 ...
2025-08-18PowerBI 累计曲线制作指南:从 DAX 度量到可视化落地 在业务数据分析中,“累计趋势” 是衡量业务进展的核心视角 —— 无论是 “ ...
2025-08-15Python 函数 return 多个数据:用法、实例与实战技巧 在 Python 编程中,函数是代码复用与逻辑封装的核心载体。多数场景下,我们 ...
2025-08-15CDA 数据分析师:引领商业数据分析体系构建,筑牢企业数据驱动根基 在数字化转型深化的今天,企业对数据的依赖已从 “零散分析” ...
2025-08-15随机森林中特征重要性(Feature Importance)排名解析 在机器学习领域,随机森林因其出色的预测性能和对高维数据的适应性,被广 ...
2025-08-14t 统计量为负数时的分布计算方法与解析 在统计学假设检验中,t 统计量是常用的重要指标,其分布特征直接影响着检验结果的判断。 ...
2025-08-14