大数据真如你所想吗
应该如何理解大数据
最初接触大数据这个概念是在2013年,当时市面上正在热销一个外国人写的《大数据时代》,我还同时参加了这本书的主题分享。关于大数据这一概念并没有一个确切的具体指向。它被用来描述大量貌似并不相关的不同类型数据的集合。大数据的功能之一是用来进行辅助决策。以前因为成本与技术的原因分析师获得的总是很小的样本,样本数量的大小和随机性,非常关键。数据的选择不能掺杂任何人为的因素,这些人为的因素通常会使结果变得很主观,同时也就失去了意义。这就意味着模型需要建得非常好,否则最终的结果就没有价值,甚至适得其反。
大数据同时还可以解释为那些大小已经超出了传统意义上的尺度,一般的软件工具难以捕捉、存储、管理和分析的数据。但是对于“大”的尺度确没有确切的定义,早在1980年代,美国就有人提出了“大数据”的概念。30多年来,各个领域的数据量都在迅猛增长,美国的企业界、学术界也不断地对这个现象及其意义进行探讨,“大数据”这个名词变得越来越流行、越来越重要,最后成为了国家和政府层面的发展战略。
在今年5月26日2015贵阳国际大数据产业博览会上国务院总理李克强指出:“中国正在研究制定’互联网+’行动计划,推动各行各业依托大数据创新商业模式,实现融合发展,推动提升政府科学决策和管理水平,用新的思路和工具解决交通、医疗、教育等公共问题……”由此大数据在我国也被上升到了国家层面。举两个在交通、医疗方面的例子:
在巴西,航空流量在过去的10年中增长迅速,预计每年的旅客数量到2030年将增长一倍还多,达到3.1亿人次。可以预见到的天空中的拥堵问题日渐受到关注。为应对这一问题,巴西开始导入GPS数据系统优化可供使用的航线,减少长短途航线间的冲突。以前的做法是飞机排成一列等待降落,使用新系统后,每架飞机首先注册自己的航道。每架飞机的位置,速度,和载荷能力,需要在最短的航道内进行及时精确的处理。这样飞机就可以沿着“曲线”更加靠近机场。在巴西利亚机场首次使用这套系统后,每架着陆的飞机平均节省了7分半钟和77加仑的燃油,同时平均少飞了22海里。巴西计划在全国的10家最繁忙的机场部署这套系统。据初步估计这套系统可以使机场的运力提升16%到59%,根据机场的实际条件有所不同。
医疗方面,互联网巨头谷歌公司在《自然》杂志上发表过一篇引人注目的论文,文中介绍了谷歌为什么能够预测冬季流感的传播。谷歌保存了多年来所有的搜索记录,并且每天都会收到来自全球超过30亿条的搜索指令,他们建立了一个关注特定检索词条的频繁使用与流感在时间和空间上的传播之间的联系。他们的软件发现了45条检索词条的组合,一旦将它们用于一个数学模型,他们的预测与官方数据的相关性就高达97%。
大数据的应用还存在着一些难解的问题
大数据虽然看上去很美,但是现实中的进展依旧缓慢。在机场行业中,人们充满了对使用大数据的热情,但是现实的阻碍重重一时又找不到理想的解决办法。
首先,缺乏透明度。交通基础设施包括了复杂的网络和众多的参与者。拿机场举例,不同的航空公司,地面处理公司,和零售商,再加上空管,乘客,和机场自己。每一方都在收集各自的数据,并且不愿意拿出来公开,这就有点像搞零售的人不愿意告诉别人仓库在哪儿。但是如果能够跟踪乘客信息,将会给每一个人带来便利。举例来说,如果知道了脚步的分布情况,和移动情况,就可以优化舱门的位置。这不止可以提高机场的容量,还可以提高机场免税商品的零售收入。而实现的前提条件,就是所有的数据要整合到一起。
其次,如何分配利润并且均摊成本,不同的机构分享数据的目的总是不同的。航空公司需要的是更快的登机速度——这可以通过缩短登机距离来实现。但是机场商店则希望增加距离来提高机场商品的销售。机场可能比较倾向于设施的便利性,但是同时也会要求灵活性,以便有什么突发事件后能够快速恢复原状。这些合起来想找到一个解决办法,所有的参与其中的各方都各取所需,并不是一个简单的任务。这需要一定程度的密切配合与信任,不容掺假。
最后,监管限制。基础设施在某种程度上,是天然的垄断行业。政府在其中扮演了无可取代的作用,确保运作的公平与低成本,并且也是唯一有可能收集并使用这些数据的,政府代表了公信力。但是这一切的前提是相关部门必须首先要被说服,接下来还必须说明什么样的数据会被采集,如何使用,并且从这些数据的有效使用中最终的好处是什么。
谷歌预测流感的事例同样存疑,大数据概念通常意味着所有数据的毫无主观色彩的一般性。但是,不能掺杂人为因素在实际操作过程中,几乎是不可能实现的,人在证明某样东西的时候往往带有一定的目的性,而且完全脱离了人为假设的试验本身也是不可想象的,最终面对的只是一堆毫无意义的数据垃圾。文章来源:CDA数据分析师官网
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
CDA持证人简介: 杨贞玺 ,CDA一级持证人,郑州大学情报学硕士研究生,某上市公司数据分析师。 学习入口:https://edu.cda.cn/g ...
2025-05-09CDA持证人简介 程靖 CDA会员大咖,畅销书《小白学产品》作者,13年顶级互联网公司产品经理相关经验,曾在百度、美团、阿里等 ...
2025-05-07相信很多做数据分析的小伙伴,都接到过一些高阶的数据分析需求,实现的过程需要用到一些数据获取,数据清洗转换,建模方法等,这 ...
2025-05-06以下的文章内容来源于刘静老师的专栏,如果您想阅读专栏《10大业务分析模型突破业务瓶颈》,点击下方链接 https://edu.cda.cn/g ...
2025-04-30CDA持证人简介: 邱立峰 CDA 数据分析师二级持证人,数字化转型专家,数据治理专家,高级数据分析师,拥有丰富的行业经验。 ...
2025-04-29CDA持证人简介: 程靖 CDA会员大咖,畅销书《小白学产品》作者,13年顶级互联网公司产品经理相关经验,曾在百度,美团,阿里等 ...
2025-04-28CDA持证人简介: 居瑜 ,CDA一级持证人国企财务经理,13年财务管理运营经验,在数据分析就业和实践经验方面有着丰富的积累和经 ...
2025-04-27数据分析在当今信息时代发挥着重要作用。单因素方差分析(One-Way ANOVA)是一种关键的统计方法,用于比较三个或更多独立样本组 ...
2025-04-25CDA持证人简介: 居瑜 ,CDA一级持证人国企财务经理,13年财务管理运营经验,在数据分析就业和实践经验方面有着丰富的积累和经 ...
2025-04-25在当今数字化时代,数据分析师的重要性与日俱增。但许多人在踏上这条职业道路时,往往充满疑惑: 如何成为一名数据分析师?成为 ...
2025-04-24以下的文章内容来源于刘静老师的专栏,如果您想阅读专栏《刘静:10大业务分析模型突破业务瓶颈》,点击下方链接 https://edu.cda ...
2025-04-23大咖简介: 刘凯,CDA大咖汇特邀讲师,DAMA中国分会理事,香港金管局特聘数据管理专家,拥有丰富的行业经验。本文将从数据要素 ...
2025-04-22CDA持证人简介 刘伟,美国 NAU 大学计算机信息技术硕士, CDA数据分析师三级持证人,现任职于江苏宝应农商银行数据治理岗。 学 ...
2025-04-21持证人简介:贺渲雯 ,CDA 数据分析师一级持证人,互联网行业数据分析师 今天我将为大家带来一个关于用户私域用户质量数据分析 ...
2025-04-18一、CDA持证人介绍 在数字化浪潮席卷商业领域的当下,数据分析已成为企业发展的关键驱动力。为助力大家深入了解数据分析在电商行 ...
2025-04-17CDA持证人简介:居瑜 ,CDA一级持证人,国企财务经理,13年财务管理运营经验,在数据分析实践方面积累了丰富的行业经验。 一、 ...
2025-04-16持证人简介: CDA持证人刘凌峰,CDA L1持证人,微软认证讲师(MCT)金山办公最有价值专家(KVP),工信部高级项目管理师,拥有 ...
2025-04-15持证人简介:CDA持证人黄葛英,ICF国际教练联盟认证教练,前字节跳动销售主管,拥有丰富的行业经验。在实际生活中,我们可能会 ...
2025-04-14在 Python 编程学习与实践中,Anaconda 是一款极为重要的工具。它作为一个开源的 Python 发行版本,集成了众多常用的科学计算库 ...
2025-04-14随着大数据时代的深入发展,数据运营成为企业不可或缺的岗位之一。这个职位的核心是通过收集、整理和分析数据,帮助企业做出科 ...
2025-04-11