京公网安备 11010802034615号
经营许可证编号:京B2-20210330
大数据真如你所想吗
应该如何理解大数据
最初接触大数据这个概念是在2013年,当时市面上正在热销一个外国人写的《大数据时代》,我还同时参加了这本书的主题分享。关于大数据这一概念并没有一个确切的具体指向。它被用来描述大量貌似并不相关的不同类型数据的集合。大数据的功能之一是用来进行辅助决策。以前因为成本与技术的原因分析师获得的总是很小的样本,样本数量的大小和随机性,非常关键。数据的选择不能掺杂任何人为的因素,这些人为的因素通常会使结果变得很主观,同时也就失去了意义。这就意味着模型需要建得非常好,否则最终的结果就没有价值,甚至适得其反。
大数据同时还可以解释为那些大小已经超出了传统意义上的尺度,一般的软件工具难以捕捉、存储、管理和分析的数据。但是对于“大”的尺度确没有确切的定义,早在1980年代,美国就有人提出了“大数据”的概念。30多年来,各个领域的数据量都在迅猛增长,美国的企业界、学术界也不断地对这个现象及其意义进行探讨,“大数据”这个名词变得越来越流行、越来越重要,最后成为了国家和政府层面的发展战略。
在今年5月26日2015贵阳国际大数据产业博览会上国务院总理李克强指出:“中国正在研究制定’互联网+’行动计划,推动各行各业依托大数据创新商业模式,实现融合发展,推动提升政府科学决策和管理水平,用新的思路和工具解决交通、医疗、教育等公共问题……”由此大数据在我国也被上升到了国家层面。举两个在交通、医疗方面的例子:
在巴西,航空流量在过去的10年中增长迅速,预计每年的旅客数量到2030年将增长一倍还多,达到3.1亿人次。可以预见到的天空中的拥堵问题日渐受到关注。为应对这一问题,巴西开始导入GPS数据系统优化可供使用的航线,减少长短途航线间的冲突。以前的做法是飞机排成一列等待降落,使用新系统后,每架飞机首先注册自己的航道。每架飞机的位置,速度,和载荷能力,需要在最短的航道内进行及时精确的处理。这样飞机就可以沿着“曲线”更加靠近机场。在巴西利亚机场首次使用这套系统后,每架着陆的飞机平均节省了7分半钟和77加仑的燃油,同时平均少飞了22海里。巴西计划在全国的10家最繁忙的机场部署这套系统。据初步估计这套系统可以使机场的运力提升16%到59%,根据机场的实际条件有所不同。
医疗方面,互联网巨头谷歌公司在《自然》杂志上发表过一篇引人注目的论文,文中介绍了谷歌为什么能够预测冬季流感的传播。谷歌保存了多年来所有的搜索记录,并且每天都会收到来自全球超过30亿条的搜索指令,他们建立了一个关注特定检索词条的频繁使用与流感在时间和空间上的传播之间的联系。他们的软件发现了45条检索词条的组合,一旦将它们用于一个数学模型,他们的预测与官方数据的相关性就高达97%。
大数据的应用还存在着一些难解的问题
大数据虽然看上去很美,但是现实中的进展依旧缓慢。在机场行业中,人们充满了对使用大数据的热情,但是现实的阻碍重重一时又找不到理想的解决办法。
首先,缺乏透明度。交通基础设施包括了复杂的网络和众多的参与者。拿机场举例,不同的航空公司,地面处理公司,和零售商,再加上空管,乘客,和机场自己。每一方都在收集各自的数据,并且不愿意拿出来公开,这就有点像搞零售的人不愿意告诉别人仓库在哪儿。但是如果能够跟踪乘客信息,将会给每一个人带来便利。举例来说,如果知道了脚步的分布情况,和移动情况,就可以优化舱门的位置。这不止可以提高机场的容量,还可以提高机场免税商品的零售收入。而实现的前提条件,就是所有的数据要整合到一起。
其次,如何分配利润并且均摊成本,不同的机构分享数据的目的总是不同的。航空公司需要的是更快的登机速度——这可以通过缩短登机距离来实现。但是机场商店则希望增加距离来提高机场商品的销售。机场可能比较倾向于设施的便利性,但是同时也会要求灵活性,以便有什么突发事件后能够快速恢复原状。这些合起来想找到一个解决办法,所有的参与其中的各方都各取所需,并不是一个简单的任务。这需要一定程度的密切配合与信任,不容掺假。
最后,监管限制。基础设施在某种程度上,是天然的垄断行业。政府在其中扮演了无可取代的作用,确保运作的公平与低成本,并且也是唯一有可能收集并使用这些数据的,政府代表了公信力。但是这一切的前提是相关部门必须首先要被说服,接下来还必须说明什么样的数据会被采集,如何使用,并且从这些数据的有效使用中最终的好处是什么。
谷歌预测流感的事例同样存疑,大数据概念通常意味着所有数据的毫无主观色彩的一般性。但是,不能掺杂人为因素在实际操作过程中,几乎是不可能实现的,人在证明某样东西的时候往往带有一定的目的性,而且完全脱离了人为假设的试验本身也是不可想象的,最终面对的只是一堆毫无意义的数据垃圾。文章来源:CDA数据分析师官网
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
Python凭借简洁的语法、丰富的生态库,成为算法开发、数据处理、机器学习等领域的首选语言。但受限于动态类型、解释性执行的特性 ...
2026-04-03在深度学习神经网络中,卷积操作是实现数据特征提取的核心引擎,更是让模型“看懂”数据、“解读”数据的关键所在。不同于传统机 ...
2026-04-03当数字化转型从企业的“战略口号”落地为“生存之战”,越来越多的企业意识到,转型的核心并非技术的堆砌,而是数据价值的深度挖 ...
2026-04-03在日常办公数据分析中,数据透视表凭借高效的汇总、分组功能,成为Excel、WPS等办公软件中最常用的数据分析工具之一。其中,“计 ...
2026-04-02在数字化交互的全场景中,用户的每一次操作都在生成动态的行为轨迹——电商用户的“浏览商品→点击详情→加入购物车”,内容APP ...
2026-04-02在数字化转型深度推进的今天,企业数据已成为驱动业务增长、构建核心竞争力的战略资产,而数据安全则是守护这份资产的“生命线” ...
2026-04-02在数据驱动决策的浪潮中,数据挖掘与数据分析是两个高频出现且极易被混淆的概念。有人将二者等同看待,认为“做数据分析就是做数 ...
2026-04-01在数据驱动决策的时代,企业与从业者每天都会面对海量数据——电商平台的用户行为数据、金融机构的信贷风险数据、快消品牌的营销 ...
2026-04-01在数字化转型的浪潮中,企业数据已从“辅助运营的附属资源”升级为“驱动增长的核心资产”,而一套科学、可落地的企业数据管理方 ...
2026-04-01在数字化时代,每一位用户与产品的交互都会留下可追溯的行为轨迹——电商用户的浏览、加购、下单,APP用户的注册、登录、功能使 ...
2026-03-31在日常数据统计、市场调研、学术分析等场景中,我们常常需要判断两个分类变量之间是否存在关联(如性别与消费偏好、产品类型与满 ...
2026-03-31在CDA(Certified Data Analyst)数据分析师的职场实战与认证考核中,“可解释性建模”是核心需求之一——企业决策中,不仅需要 ...
2026-03-31多层感知机(MLP,Multilayer Perceptron)作为深度学习中最基础、最经典的神经网络模型,其结构设计直接决定了模型的拟合能力、 ...
2026-03-30在TensorFlow深度学习实战中,数据集的加载与预处理是基础且关键的第一步。手动下载、解压、解析数据集不仅耗时费力,还容易出现 ...
2026-03-30在CDA(Certified Data Analyst)数据分析师的日常工作中,“无监督分组、挖掘数据内在聚类规律”是高频核心需求——电商场景中 ...
2026-03-30机器学习的本质,是让模型通过对数据的学习,自主挖掘规律、实现预测与决策,而这一过程的核心驱动力,并非单一参数的独立作用, ...
2026-03-27在SQL Server数据库操作中,日期时间处理是高频核心需求——无论是报表统计中的日期格式化、数据筛选时的日期类型匹配,还是业务 ...
2026-03-27在CDA(Certified Data Analyst)数据分析师的能力体系与职场实操中,高维数据处理是高频且核心的痛点——随着业务场景的复杂化 ...
2026-03-27在机器学习建模与数据分析实战中,特征维度爆炸、冗余信息干扰、模型泛化能力差是高频痛点。面对用户画像、企业经营、医疗检测、 ...
2026-03-26在这个数据无处不在的时代,数据分析能力已不再是数据从业者的专属技能,而是成为了职场人、管理者、创业者乃至个人发展的核心竞 ...
2026-03-26