
大数据时代 人人都有洞察力_数据分析师
对话人:
英特尔中国研究院首席工程师:吴甘沙/微软亚太研发集团主席:张亚勤/微软雷德蒙研究院联席院长:埃里克·霍维兹
紧跟着物联网、云计算,大数据裹挟着各种版本的概念呼啸而来,短短时间内引领了新技术热点话题的关注度。
大数据究竟是什么新玩意?大数据真正的魅力体现在哪里?本报记者约请几位专家进行了对话。
大数据有多大
记者:对于大数据,有一个形象的说法:现在即使是一个孩子,也可以把一个小小的存储器放入书包,随身携带TB级的数据去学校上课,甚至把整个人类文明背上都不是问题。经过大量数据的训练和装备,未来的电子产品或者机器可以成为“大有裨益的终身数码伴侣”:它可以预测你是想要一包方便面还是一颗感冒药,你想去旅游还是选择最不堵车的路线去看球赛,甚至还能以你的名义饱蘸激情投入工作。大数据这个概念看似从字面就能理解,但确实以前没有这么火过。首先我们想知道的是,大数据到底有多大?
吴甘沙:互联网搜索、电子商务交易平台和微博等社交网站产生的各种数据内容,经常被用来证明大数据之大。其实在传统产业和我们的生活中,大数据也比比皆是。
以北京交通为例,北京市的交通智能化分析平台,它的数据源来自路网摄像头/传感器、地面公交、轨道交通、出租车以及省际客运、旅游、化危运输、停车、租车等运输行业等:4万辆浮动车每天产生2000万条记录﹔交通卡刷卡记录每天1900万条﹔手机定位数据每天1800万条﹔出租车运营数据每天100万条﹔高速ETC数据每天50万条……这些,从数据体量和速度上也达到了大数据的规模。
发掘这些形态各异、快慢不一的数据流之间的相关性,是大数据做前人之未做、前人所不能的机会。也正是大数据最主要的特点。
比如,交通状况与其它领域的数据都存在较强的关联性:有研究发现,可以从供水系统数据中发现晨洗的高峰时间,加上一个偏移量,通常是40—45分钟,就是交通早高峰时间。同样可以从电网数据中统计出傍晚办公楼集中关灯的时间,加上偏移量来估计出晚上的堵车时点。国外的研究甚至发现了交通事故率与睡眠质量的关联,以及与社交网络情感波动的相关性。
记者:IT业界所指的数据,诞生不过60多年。而一直到个人电脑普及前,由于存储、计算和分析工具的技术和成本限制,许多自然界和人类社会值得记录的信号,并未形成数据。大数据有没有一个“门槛”?一些定义准确吗?
吴甘沙:国际数据统计机构IDC对全世界每年创建和复制的信息的体量做了估计和预测:2011年1.8ZB,2012年2.8ZB,按照每两年翻一番的速度,2020年达到40ZB。这个数据怎么算出来的?IDC秘而不宣。1.8ZB什么概念?相当于4500亿张DVD,或6500万年的高清视频,或是1130亿台装满数据的iPad。如果把这些iPad覆盖到足球场,并往上堆叠,高度将达到10.3公里,比珠穆朗玛峰还高。思科公司也有一个类似的预测:2016年数据移动的总量达到1.3ZB。其实所有这些数据加起来都不如谷歌的前CEO施密特说法有感染力:从人类文明曙光到2003年数以万年计的时间长河里人类一共产生了5EB(天知道他怎么算出来的),而到2010年每两天人类就能产生5EB的数据。
这类数据的预测,对于存储和网络企业的投资者来说,无疑能提升信心,但对其他人来说没有太大意义。他们更关心的是个体行业、企业和个人数据的状况。
美国咨询公司麦肯锡对大数据的定义就是从个体数据集的大体量入手的:大数据是指那些很大的数据集,大到传统的数据库软件工具已经无法采集、存储、管理和分析。传统数据库有效工作的数据上限一般来说在10—100TB,因此10—100TB通常成为大数据的门槛。
无独有偶,IDC在给大数据做定义时也设在100TB。其实这种方法未必科学,不管怎样,有一个简单明晰的数值来指导企业大数据的判断,总是好事。
大数据如何诞生
记者:大数据现在是个时髦的词汇,但和云计算一样,似乎很多人还没有了解大数据是什么?或者说,因为大数据太热了,各种各样的说法都有。从我个人的理解,大数据应该是和云计算一样,是随着IT计算能力、资源和网络、服务器等硬件设施的发展自然而然诞生的,它应该是被看作一种能力,而不是数据本身。
埃里克·霍维兹:时髦词汇的产生有各种各样的原因。对于大数据而言,我认为是几个因素共同导致了这一朗朗上口的词汇的流行。其中之一是人们在不同领域采集到的数据量之大,达到了前所未有的程度,而传感、存储和网络等计算机科学领域也在不断前行。人们需要收集大量数据,一部分原因在于许多人类活动已经转向了网络,各种交易和事件数据的收集变得十分容易,而且能够实时同步收集。这些活动包括电子商务、通过道路上的传感器记录汽车行驶状况、利用位置数据提供智能手机服务等。而在医疗领域,基因组研究的突飞猛进和医院临床数据捕获,将越来越多的GB级乃至TB级患者数据输送到数据库中。
吴甘沙:数据总量的增长主要归功于非结构化数据的增长,目前普遍被认为占到85%以上,而且增速比结构化数据快得多,有种说法是快10—50倍。
早期的非结构化数据,主要是文本,如电子邮件、文档等。随着互联网和物联网的发展,又扩展到网页、社交媒体、感知数据,涵盖音频、图片、视频、模拟信号等等,真正诠释了数据的多样性。但同时,低信息密度的非结构化数据是大数据的一大挑战。
从具体内容上,大数据通常分为四类:科研数据、互联网数据、企业数据、感知数据。
科研数据属于大数据时代前很久就存在的“史前生物”,可能来自生物工程、天文望远镜或粒子对撞机,不一而足。这些数据存在于封闭系统中,玩家都是传统上做高性能计算的企业或机构。最著名的是欧洲核子研究中心的大型强子对撞机,此机不撞则已,一撞惊人,工作状态下每秒产生PB级的数据。
互联网大数据是目前这个时代的主流,尤其社交媒体被认为是大数据的爆发点。几乎所有的大数据技术都起源于互联网企业。所有这些企业当中,做搜索的最大,百度达到了千PB的规模,谷歌更大一些。脸谱网、雅虎等都在数百PB,亚马逊、阿里巴巴应该也同在此列。
进入移动互联网时代后,移动平台的感知功能和LBS(基于位置的服务)的普及,使得互联网数据与感知数据产生了重叠。同样,企业数据和感知数据也有重合,如企业会部署物联网收集感知数据。但感知数据的体量要大得多,甚至有预测感知数据的总量在2015年超过社交媒体,并达到后者的10—20倍。企业自身的数据比起十年前虽然没有数量级的提升,但也得到了有机的增长:一方面,内部数据从结构化数据扩展到非结构化的数据,另一方面,更强调与新的外部数据源如社交媒体数据的融合。
大数据的价值在于获得洞察力
记者:虽然有多种解读,但业界一般认为,大数据有四个“V”字开头的特征:Volume(体量), Velocity(速度), Variety(种类),Value(价值)。这其实也是大数据概念的组成。Volume是指大数据巨大的数据量与数据完整性﹔Velocity可以理解为更快地满足实时性需求﹔Variety则意味着要在海量、种类繁多的数据间发现其内在关联﹔Value最重要,它是大数据的最终意义——获得洞察力和价值。简单说,大数据4个V:就是体量大,快速化,类型杂,价值大。
张亚勤:体量容易理解。速度可以理解为更快地满足实时性需求。数据的实时化需求正越来越清晰。对普通人而言,开车去吃饭,会先用移动终端中的地图查询餐厅的位置,预计行车路线的拥堵情况,了解停车场信息甚至是其他用户对餐厅的评论。吃饭时,会用手机拍摄食物的照片,编辑简短评论发布到微博或者微信上,还可以用LBS应用查找在同一间餐厅吃饭的人,看有没有好友在附近……
通过各种有线和无线网络,人和人、人和各种机器、机器和机器之间产生无处不在的连接,这些连接不可避免地带来数据交换。而数据交换的关键是降低延迟,以近乎实时——意味着小于250毫秒的方式呈献给用户。
类型杂必然促使我们对海量数据进行分析、处理和集成,找出原本看来毫无关系的那些数据的关联性,把似乎没有用的数据变成有用的信息,以支持我们做出的判断,最终形成大数据的价值——获得洞察力和价值。
大数据的崛起,正是在人工智能、机器学习和数据挖掘等技术的迅速发展驱动下,呈现这么一个过程:将信号转化为数据,将数据分析为信息,将信息提炼为知识,以知识促成决策和行动。所以真正好的大数据系统,重要的不是越多越好,其实越少越好,最终变成一个决策,这才是最关键的。
大数据开启了一个新的世界,人们的认知必须主动求变
记者:现在看来,有很多大数据园区、联盟的出现和成立,但是大数据热似乎还缺少明确的产业支撑。美国政府投了2亿美金支持大数据发展,但这种投入也不是特别大。如您所说,从赚钱机会上来看,大数据还没到“满地是沙子、满地是金子”的时候。对于大数据技术和服务公司而言,中小互联网公司有现成的机会,而最大的蛋糕——企业数据和感知数据,目前只是闻到香味而已。
吴甘沙:不能神化大数据是万灵药,也不能矮化大数据就是包装旧概念。大数据是一种新的数据形态和实践,它与当前主流的数据应用实践并存,而非取代。而且,它在相当长的时间内仍然是个新鲜事物,即使IDC在2012年底预测,年复合增长率高达32%,到2016年全球大数据技术和服务市场总额也就是240亿美元左右。不切实际、一窝蜂地上大数据项目不应鼓励。
对一部分人来说,大数据已经是个客观存在和竞争优势﹔对绝大多数人来说,大数据可以是一种“从现在做起”的世界观,和未雨绸缪、决战未来的战略。可以说,大数据开启了一个新的世界,我们对这个世界的认知必须主动求变。
旧的认识是“数据是稀缺资源”,这种认识直接导致“数据小农”心态。大数据开始于数据测量,而“数据小农”拣着测、挑着存、采着样来处理,总是幻想能够从最少的数据压榨出最多的信息。
新的认识是,要参与大数据的游戏并且制胜,必须产生大数据。在大数据时代,拥有大数据是一种幸福和特权。因此,每一个个体、企业和政府需要自觉、客观、全面地去测量世界,并且把数据存下来。决策者需要具备的大数据观很简单:数据不是累赘,数据里有很多价值,数据的存储和搬运会越来越便宜。
因此,大数据也是一种战略、世界观和习惯。即使今天没有大体量的数据,还是可以尽可能自觉、客观、全面地测量世界,为未来的大数据实践做准备。对于一个企业或系统来说,挑战在数据采集,而非存储。微信在设计之初就把数据监控精细化,并纳入基础框架,这是意识和实力的体现。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
PyTorch 核心机制:损失函数与反向传播如何驱动模型进化 在深度学习的世界里,模型从 “一无所知” 到 “精准预测” 的蜕变,离 ...
2025-07-252025 年 CDA 数据分析师考纲焕新,引领行业人才新标准 在数字化浪潮奔涌向前的当下,数据已成为驱动各行业发展的核心要素。作为 ...
2025-07-25从数据到决策:CDA 数据分析师如何重塑职场竞争力与行业价值 在数字经济席卷全球的今天,数据已从 “辅助工具” 升级为 “核心资 ...
2025-07-25用 Power BI 制作地图热力图:基于经纬度数据的实践指南 在数据可视化领域,地图热力图凭借直观呈现地理数据分布密度的优势,成 ...
2025-07-24解析 insert into select 是否会锁表:原理、场景与应对策略 在数据库操作中,insert into select 是一种常用的批量数据插入语句 ...
2025-07-24CDA 数据分析师的工作范围解析 在数字化时代的浪潮下,数据已成为企业发展的核心资产之一。CDA(Certified Data Analyst)数据分 ...
2025-07-24从 CDA LEVEL II 考试题型看 Python 数据分析要点 在数据科学领域蓬勃发展的当下,CDA(Certified Data Analyst)认证成为众多从 ...
2025-07-23用 Python 开启数据分析之旅:从基础到实践的完整指南 在数据驱动决策的时代,数据分析已成为各行业不可或缺的核心能力。而 Pyt ...
2025-07-23鸢尾花判别分析:机器学习中的经典实践案例 在机器学习的世界里,有一个经典的数据集如同引路明灯,为无数初学者打开了模式识别 ...
2025-07-23解析 response.text 与 response.content 的核心区别 在网络数据请求与处理的场景中,开发者经常需要从服务器返回的响应中提取数 ...
2025-07-22解析神经网络中 Softmax 函数的核心作用 在神经网络的发展历程中,激活函数扮演着至关重要的角色,它们为网络赋予了非线性能力, ...
2025-07-22CDA数据分析师证书考取全攻略 一、了解 CDA 数据分析师认证 CDA 数据分析师认证是一套科学化、专业化、国际化的人才考核标准, ...
2025-07-22左偏态分布转正态分布:方法、原理与实践 左偏态分布转正态分布:方法、原理与实践 在统计分析、数据建模和科学研究中,正态分 ...
2025-07-22你是不是也经常刷到别人涨粉百万、带货千万,心里痒痒的,想着“我也试试”,结果三个月过去,粉丝不到1000,播放量惨不忍睹? ...
2025-07-21我是陈辉,一个创业十多年的企业主,前半段人生和“文字”紧紧绑在一起。从广告公司文案到品牌策划,再到自己开策划机构,我靠 ...
2025-07-21CDA 数据分析师的职业生涯规划:从入门到卓越的成长之路 在数字经济蓬勃发展的当下,数据已成为企业核心竞争力的重要来源,而 CD ...
2025-07-21MySQL执行计划中rows的计算逻辑:从原理到实践 MySQL 执行计划中 rows 的计算逻辑:从原理到实践 在 MySQL 数据库的查询优化中 ...
2025-07-21在AI渗透率超85%的2025年,企业生存之战就是数据之战,CDA认证已成为决定企业存续的生死线!据麦肯锡全球研究院数据显示,AI驱 ...
2025-07-2035岁焦虑像一把高悬的利刃,裁员潮、晋升无望、技能过时……当职场中年危机与数字化浪潮正面交锋,你是否发现: 简历投了10 ...
2025-07-20CDA 数据分析师报考条件详解与准备指南 在数据驱动决策的时代浪潮下,CDA 数据分析师认证愈发受到瞩目,成为众多有志投身数 ...
2025-07-18