
大数据真如你所想吗
应该如何理解大数据
最初接触大数据这个概念是在2013年,当时市面上正在热销一个外国人写的《大数据时代》,我还同时参加了这本书的主题分享。关于大数据这一概念并没有一个确切的具体指向。它被用来描述大量貌似并不相关的不同类型数据的集合。大数据的功能之一是用来进行辅助决策。以前因为成本与技术的原因分析师获得的总是很小的样本,样本数量的大小和随机性,非常关键。数据的选择不能掺杂任何人为的因素,这些人为的因素通常会使结果变得很主观,同时也就失去了意义。这就意味着模型需要建得非常好,否则最终的结果就没有价值,甚至适得其反。
大数据同时还可以解释为那些大小已经超出了传统意义上的尺度,一般的软件工具难以捕捉、存储、管理和分析的数据。但是对于“大”的尺度确没有确切的定义,早在1980年代,美国就有人提出了“大数据”的概念。30多年来,各个领域的数据量都在迅猛增长,美国的企业界、学术界也不断地对这个现象及其意义进行探讨,“大数据”这个名词变得越来越流行、越来越重要,最后成为了国家和政府层面的发展战略。
在今年5月26日2015贵阳国际大数据产业博览会上国务院总理李克强指出:“中国正在研究制定’互联网+’行动计划,推动各行各业依托大数据创新商业模式,实现融合发展,推动提升政府科学决策和管理水平,用新的思路和工具解决交通、医疗、教育等公共问题……”由此大数据在我国也被上升到了国家层面。举两个在交通、医疗方面的例子:
在巴西,航空流量在过去的10年中增长迅速,预计每年的旅客数量到2030年将增长一倍还多,达到3.1亿人次。可以预见到的天空中的拥堵问题日渐受到关注。为应对这一问题,巴西开始导入GPS数据系统优化可供使用的航线,减少长短途航线间的冲突。以前的做法是飞机排成一列等待降落,使用新系统后,每架飞机首先注册自己的航道。每架飞机的位置,速度,和载荷能力,需要在最短的航道内进行及时精确的处理。这样飞机就可以沿着“曲线”更加靠近机场。在巴西利亚机场首次使用这套系统后,每架着陆的飞机平均节省了7分半钟和77加仑的燃油,同时平均少飞了22海里。巴西计划在全国的10家最繁忙的机场部署这套系统。据初步估计这套系统可以使机场的运力提升16%到59%,根据机场的实际条件有所不同。
医疗方面,互联网巨头谷歌公司在《自然》杂志上发表过一篇引人注目的论文,文中介绍了谷歌为什么能够预测冬季流感的传播。谷歌保存了多年来所有的搜索记录,并且每天都会收到来自全球超过30亿条的搜索指令,他们建立了一个关注特定检索词条的频繁使用与流感在时间和空间上的传播之间的联系。他们的软件发现了45条检索词条的组合,一旦将它们用于一个数学模型,他们的预测与官方数据的相关性就高达97%。
大数据的应用还存在着一些难解的问题
大数据虽然看上去很美,但是现实中的进展依旧缓慢。在机场行业中,人们充满了对使用大数据的热情,但是现实的阻碍重重一时又找不到理想的解决办法。
首先,缺乏透明度。交通基础设施包括了复杂的网络和众多的参与者。拿机场举例,不同的航空公司,地面处理公司,和零售商,再加上空管,乘客,和机场自己。每一方都在收集各自的数据,并且不愿意拿出来公开,这就有点像搞零售的人不愿意告诉别人仓库在哪儿。但是如果能够跟踪乘客信息,将会给每一个人带来便利。举例来说,如果知道了脚步的分布情况,和移动情况,就可以优化舱门的位置。这不止可以提高机场的容量,还可以提高机场免税商品的零售收入。而实现的前提条件,就是所有的数据要整合到一起。
其次,如何分配利润并且均摊成本,不同的机构分享数据的目的总是不同的。航空公司需要的是更快的登机速度——这可以通过缩短登机距离来实现。但是机场商店则希望增加距离来提高机场商品的销售。机场可能比较倾向于设施的便利性,但是同时也会要求灵活性,以便有什么突发事件后能够快速恢复原状。这些合起来想找到一个解决办法,所有的参与其中的各方都各取所需,并不是一个简单的任务。这需要一定程度的密切配合与信任,不容掺假。
最后,监管限制。基础设施在某种程度上,是天然的垄断行业。政府在其中扮演了无可取代的作用,确保运作的公平与低成本,并且也是唯一有可能收集并使用这些数据的,政府代表了公信力。但是这一切的前提是相关部门必须首先要被说服,接下来还必须说明什么样的数据会被采集,如何使用,并且从这些数据的有效使用中最终的好处是什么。
谷歌预测流感的事例同样存疑,大数据概念通常意味着所有数据的毫无主观色彩的一般性。但是,不能掺杂人为因素在实际操作过程中,几乎是不可能实现的,人在证明某样东西的时候往往带有一定的目的性,而且完全脱离了人为假设的试验本身也是不可想象的,最终面对的只是一堆毫无意义的数据垃圾。文章来源:CDA数据分析师官网
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
数据驱动营销革命:解析数据分析在网络营销中的核心作用 在数字经济蓬勃发展的当下,网络营销已成为企业触达消费者 ...
2025-06-23随机森林模型与 OPLS-DA 的优缺点深度剖析 在数据分析与机器学习领域,随机森林模型与 OPLS-DA(正交偏最小二乘法判 ...
2025-06-23CDA 一级:开启数据分析师职业大门的钥匙 在数字化浪潮席卷全球的今天,数据已成为企业发展和决策的核心驱动力,数据分析师 ...
2025-06-23透视表内计算两个字段乘积的实用指南 在数据处理与分析的过程中,透视表凭借其强大的数据汇总和整理能力,成为了众多数据工 ...
2025-06-20CDA 一级考试备考时长全解析,助你高效备考 CDA(Certified Data Analyst)一级认证考试,作为数据分析师领域的重要资格认证, ...
2025-06-20统计学模型:解锁数据背后的规律与奥秘 在数据驱动决策的时代,统计学模型作为挖掘数据价值的核心工具,发挥着至关重要的作 ...
2025-06-20Logic 模型特征与选择应用:构建项目规划与评估的逻辑框架 在项目管理、政策制定以及社会服务等领域,Logic 模型(逻辑模型 ...
2025-06-19SPSS 中的 Mann-Kendall 检验:数据趋势与突变分析的利器 在数据分析的众多方法中,Mann-Kendall(MK)检验凭借其对数据分 ...
2025-06-19CDA 数据分析能力与 AI 的一体化发展关系:重塑数据驱动未来 在数字化浪潮奔涌的当下,数据已然成为企业乃至整个社会发展进 ...
2025-06-19CDA 干货分享:统计学的应用 在数据驱动业务发展的时代浪潮中,统计学作为数据分析的核心基石,发挥着无可替代的关键作用。 ...
2025-06-18CDA 精益业务数据分析:解锁企业增长新密码 在数字化浪潮席卷全球的当下,数据已然成为企业最具价值的资产之一。如何精准地 ...
2025-06-18CDA 培训:开启数据分析师职业大门的钥匙 在大数据时代,数据分析师已成为各行业竞相争夺的关键人才。CDA(Certified Data ...
2025-06-18CDA 人才招聘市场分析:机遇与挑战并存 在数字化浪潮席卷各行业的当下,数据分析能力成为企业发展的核心竞争力之一,持有 C ...
2025-06-17CDA金融大数据案例分析:驱动行业变革的实践与启示 在金融行业加速数字化转型的当下,大数据技术已成为金融机构提升 ...
2025-06-17CDA干货:SPSS交叉列联表分析规范与应用指南 一、交叉列联表的基本概念 交叉列联表(Cross-tabulation)是一种用于展示两个或多 ...
2025-06-17TMT行业内审内控咨询顾问 1-2万 上班地址:朝阳门北大街8号富华大厦A座9层 岗位描述 1、为客户提供高质量的 ...
2025-06-16一文读懂 CDA 数据分析师证书考试全攻略 在数据行业蓬勃发展的今天,CDA 数据分析师证书成为众多从业者和求职者提升竞争力的重要 ...
2025-06-16数据分析师:数字时代的商业解码者 在数字经济蓬勃发展的今天,数据已成为企业乃至整个社会最宝贵的资产之一。无论是 ...
2025-06-16解锁数据分析师证书:开启数字化职业新篇 在数字化浪潮汹涌的当下,数据已成为驱动企业前行的关键要素。从市场趋势研判、用 ...
2025-06-16CDA 数据分析师证书含金量几何?一文为你讲清楚 在当今数字化时代,数据成为了企业决策和发展的重要依据。数据分析师这一职业 ...
2025-06-13