京公网安备 11010802034615号
经营许可证编号:京B2-20210330
大数据时代 人人都有洞察力_数据分析师
对话人:
英特尔中国研究院首席工程师:吴甘沙/微软亚太研发集团主席:张亚勤/微软雷德蒙研究院联席院长:埃里克·霍维兹
紧跟着物联网、云计算,大数据裹挟着各种版本的概念呼啸而来,短短时间内引领了新技术热点话题的关注度。
大数据究竟是什么新玩意?大数据真正的魅力体现在哪里?本报记者约请几位专家进行了对话。
大数据有多大
记者:对于大数据,有一个形象的说法:现在即使是一个孩子,也可以把一个小小的存储器放入书包,随身携带TB级的数据去学校上课,甚至把整个人类文明背上都不是问题。经过大量数据的训练和装备,未来的电子产品或者机器可以成为“大有裨益的终身数码伴侣”:它可以预测你是想要一包方便面还是一颗感冒药,你想去旅游还是选择最不堵车的路线去看球赛,甚至还能以你的名义饱蘸激情投入工作。大数据这个概念看似从字面就能理解,但确实以前没有这么火过。首先我们想知道的是,大数据到底有多大?
吴甘沙:互联网搜索、电子商务交易平台和微博等社交网站产生的各种数据内容,经常被用来证明大数据之大。其实在传统产业和我们的生活中,大数据也比比皆是。
以北京交通为例,北京市的交通智能化分析平台,它的数据源来自路网摄像头/传感器、地面公交、轨道交通、出租车以及省际客运、旅游、化危运输、停车、租车等运输行业等:4万辆浮动车每天产生2000万条记录﹔交通卡刷卡记录每天1900万条﹔手机定位数据每天1800万条﹔出租车运营数据每天100万条﹔高速ETC数据每天50万条……这些,从数据体量和速度上也达到了大数据的规模。
发掘这些形态各异、快慢不一的数据流之间的相关性,是大数据做前人之未做、前人所不能的机会。也正是大数据最主要的特点。
比如,交通状况与其它领域的数据都存在较强的关联性:有研究发现,可以从供水系统数据中发现晨洗的高峰时间,加上一个偏移量,通常是40—45分钟,就是交通早高峰时间。同样可以从电网数据中统计出傍晚办公楼集中关灯的时间,加上偏移量来估计出晚上的堵车时点。国外的研究甚至发现了交通事故率与睡眠质量的关联,以及与社交网络情感波动的相关性。
记者:IT业界所指的数据,诞生不过60多年。而一直到个人电脑普及前,由于存储、计算和分析工具的技术和成本限制,许多自然界和人类社会值得记录的信号,并未形成数据。大数据有没有一个“门槛”?一些定义准确吗?
吴甘沙:国际数据统计机构IDC对全世界每年创建和复制的信息的体量做了估计和预测:2011年1.8ZB,2012年2.8ZB,按照每两年翻一番的速度,2020年达到40ZB。这个数据怎么算出来的?IDC秘而不宣。1.8ZB什么概念?相当于4500亿张DVD,或6500万年的高清视频,或是1130亿台装满数据的iPad。如果把这些iPad覆盖到足球场,并往上堆叠,高度将达到10.3公里,比珠穆朗玛峰还高。思科公司也有一个类似的预测:2016年数据移动的总量达到1.3ZB。其实所有这些数据加起来都不如谷歌的前CEO施密特说法有感染力:从人类文明曙光到2003年数以万年计的时间长河里人类一共产生了5EB(天知道他怎么算出来的),而到2010年每两天人类就能产生5EB的数据。
这类数据的预测,对于存储和网络企业的投资者来说,无疑能提升信心,但对其他人来说没有太大意义。他们更关心的是个体行业、企业和个人数据的状况。
美国咨询公司麦肯锡对大数据的定义就是从个体数据集的大体量入手的:大数据是指那些很大的数据集,大到传统的数据库软件工具已经无法采集、存储、管理和分析。传统数据库有效工作的数据上限一般来说在10—100TB,因此10—100TB通常成为大数据的门槛。
无独有偶,IDC在给大数据做定义时也设在100TB。其实这种方法未必科学,不管怎样,有一个简单明晰的数值来指导企业大数据的判断,总是好事。
大数据如何诞生
记者:大数据现在是个时髦的词汇,但和云计算一样,似乎很多人还没有了解大数据是什么?或者说,因为大数据太热了,各种各样的说法都有。从我个人的理解,大数据应该是和云计算一样,是随着IT计算能力、资源和网络、服务器等硬件设施的发展自然而然诞生的,它应该是被看作一种能力,而不是数据本身。
埃里克·霍维兹:时髦词汇的产生有各种各样的原因。对于大数据而言,我认为是几个因素共同导致了这一朗朗上口的词汇的流行。其中之一是人们在不同领域采集到的数据量之大,达到了前所未有的程度,而传感、存储和网络等计算机科学领域也在不断前行。人们需要收集大量数据,一部分原因在于许多人类活动已经转向了网络,各种交易和事件数据的收集变得十分容易,而且能够实时同步收集。这些活动包括电子商务、通过道路上的传感器记录汽车行驶状况、利用位置数据提供智能手机服务等。而在医疗领域,基因组研究的突飞猛进和医院临床数据捕获,将越来越多的GB级乃至TB级患者数据输送到数据库中。
吴甘沙:数据总量的增长主要归功于非结构化数据的增长,目前普遍被认为占到85%以上,而且增速比结构化数据快得多,有种说法是快10—50倍。
早期的非结构化数据,主要是文本,如电子邮件、文档等。随着互联网和物联网的发展,又扩展到网页、社交媒体、感知数据,涵盖音频、图片、视频、模拟信号等等,真正诠释了数据的多样性。但同时,低信息密度的非结构化数据是大数据的一大挑战。
从具体内容上,大数据通常分为四类:科研数据、互联网数据、企业数据、感知数据。
科研数据属于大数据时代前很久就存在的“史前生物”,可能来自生物工程、天文望远镜或粒子对撞机,不一而足。这些数据存在于封闭系统中,玩家都是传统上做高性能计算的企业或机构。最著名的是欧洲核子研究中心的大型强子对撞机,此机不撞则已,一撞惊人,工作状态下每秒产生PB级的数据。
互联网大数据是目前这个时代的主流,尤其社交媒体被认为是大数据的爆发点。几乎所有的大数据技术都起源于互联网企业。所有这些企业当中,做搜索的最大,百度达到了千PB的规模,谷歌更大一些。脸谱网、雅虎等都在数百PB,亚马逊、阿里巴巴应该也同在此列。
进入移动互联网时代后,移动平台的感知功能和LBS(基于位置的服务)的普及,使得互联网数据与感知数据产生了重叠。同样,企业数据和感知数据也有重合,如企业会部署物联网收集感知数据。但感知数据的体量要大得多,甚至有预测感知数据的总量在2015年超过社交媒体,并达到后者的10—20倍。企业自身的数据比起十年前虽然没有数量级的提升,但也得到了有机的增长:一方面,内部数据从结构化数据扩展到非结构化的数据,另一方面,更强调与新的外部数据源如社交媒体数据的融合。
大数据的价值在于获得洞察力
记者:虽然有多种解读,但业界一般认为,大数据有四个“V”字开头的特征:Volume(体量), Velocity(速度), Variety(种类),Value(价值)。这其实也是大数据概念的组成。Volume是指大数据巨大的数据量与数据完整性﹔Velocity可以理解为更快地满足实时性需求﹔Variety则意味着要在海量、种类繁多的数据间发现其内在关联﹔Value最重要,它是大数据的最终意义——获得洞察力和价值。简单说,大数据4个V:就是体量大,快速化,类型杂,价值大。
张亚勤:体量容易理解。速度可以理解为更快地满足实时性需求。数据的实时化需求正越来越清晰。对普通人而言,开车去吃饭,会先用移动终端中的地图查询餐厅的位置,预计行车路线的拥堵情况,了解停车场信息甚至是其他用户对餐厅的评论。吃饭时,会用手机拍摄食物的照片,编辑简短评论发布到微博或者微信上,还可以用LBS应用查找在同一间餐厅吃饭的人,看有没有好友在附近……
通过各种有线和无线网络,人和人、人和各种机器、机器和机器之间产生无处不在的连接,这些连接不可避免地带来数据交换。而数据交换的关键是降低延迟,以近乎实时——意味着小于250毫秒的方式呈献给用户。
类型杂必然促使我们对海量数据进行分析、处理和集成,找出原本看来毫无关系的那些数据的关联性,把似乎没有用的数据变成有用的信息,以支持我们做出的判断,最终形成大数据的价值——获得洞察力和价值。
大数据的崛起,正是在人工智能、机器学习和数据挖掘等技术的迅速发展驱动下,呈现这么一个过程:将信号转化为数据,将数据分析为信息,将信息提炼为知识,以知识促成决策和行动。所以真正好的大数据系统,重要的不是越多越好,其实越少越好,最终变成一个决策,这才是最关键的。
大数据开启了一个新的世界,人们的认知必须主动求变
记者:现在看来,有很多大数据园区、联盟的出现和成立,但是大数据热似乎还缺少明确的产业支撑。美国政府投了2亿美金支持大数据发展,但这种投入也不是特别大。如您所说,从赚钱机会上来看,大数据还没到“满地是沙子、满地是金子”的时候。对于大数据技术和服务公司而言,中小互联网公司有现成的机会,而最大的蛋糕——企业数据和感知数据,目前只是闻到香味而已。
吴甘沙:不能神化大数据是万灵药,也不能矮化大数据就是包装旧概念。大数据是一种新的数据形态和实践,它与当前主流的数据应用实践并存,而非取代。而且,它在相当长的时间内仍然是个新鲜事物,即使IDC在2012年底预测,年复合增长率高达32%,到2016年全球大数据技术和服务市场总额也就是240亿美元左右。不切实际、一窝蜂地上大数据项目不应鼓励。
对一部分人来说,大数据已经是个客观存在和竞争优势﹔对绝大多数人来说,大数据可以是一种“从现在做起”的世界观,和未雨绸缪、决战未来的战略。可以说,大数据开启了一个新的世界,我们对这个世界的认知必须主动求变。
旧的认识是“数据是稀缺资源”,这种认识直接导致“数据小农”心态。大数据开始于数据测量,而“数据小农”拣着测、挑着存、采着样来处理,总是幻想能够从最少的数据压榨出最多的信息。
新的认识是,要参与大数据的游戏并且制胜,必须产生大数据。在大数据时代,拥有大数据是一种幸福和特权。因此,每一个个体、企业和政府需要自觉、客观、全面地去测量世界,并且把数据存下来。决策者需要具备的大数据观很简单:数据不是累赘,数据里有很多价值,数据的存储和搬运会越来越便宜。
因此,大数据也是一种战略、世界观和习惯。即使今天没有大体量的数据,还是可以尽可能自觉、客观、全面地测量世界,为未来的大数据实践做准备。对于一个企业或系统来说,挑战在数据采集,而非存储。微信在设计之初就把数据监控精细化,并纳入基础框架,这是意识和实力的体现。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在用户行为分析实践中,很多从业者会陷入一个核心误区:过度关注“当前数据的分析结果”,却忽视了结果的“泛化能力”——即分析 ...
2026-03-13在数字经济时代,用户的每一次点击、浏览、停留、转化,都在传递着真实的需求信号。用户行为分析,本质上是通过收集、整理、挖掘 ...
2026-03-13在金融、零售、互联网等数据密集型行业,量化策略已成为企业挖掘商业价值、提升决策效率、控制经营风险的核心工具。而CDA(Certi ...
2026-03-13在机器学习建模体系中,随机森林作为集成学习的经典算法,凭借高精度、抗过拟合、适配多场景、可解释性强的核心优势,成为分类、 ...
2026-03-12在机器学习建模过程中,“哪些特征对预测结果影响最大?”“如何筛选核心特征、剔除冗余信息?”是从业者最常面临的核心问题。随 ...
2026-03-12在数字化转型深度渗透的今天,企业管理已从“经验驱动”全面转向“数据驱动”,数据思维成为企业高质量发展的核心竞争力,而CDA ...
2026-03-12在数字经济飞速发展的今天,数据分析已从“辅助工具”升级为“核心竞争力”,渗透到商业、科技、民生、金融等各个领域。无论是全 ...
2026-03-11上市公司财务报表是反映企业经营状况、盈利能力、偿债能力的核心数据载体,是投资者决策、研究者分析、从业者复盘的重要依据。16 ...
2026-03-11数字化浪潮下,数据已成为企业生存发展的核心资产,而数据思维,正是CDA(Certified Data Analyst)数据分析师解锁数据价值、赋 ...
2026-03-11线性回归是数据分析中最常用的预测与关联分析方法,广泛应用于销售额预测、风险评估、趋势分析等场景(如前文销售额预测中的多元 ...
2026-03-10在SQL Server安装与配置的实操中,“服务名无效”是最令初学者头疼的高频问题之一。无论是在命令行执行net start启动服务、通过S ...
2026-03-10在数据驱动业务的当下,CDA(Certified Data Analyst)数据分析师的核心价值,不仅在于解读数据,更在于搭建一套科学、可落地的 ...
2026-03-10在企业经营决策中,销售额预测是核心环节之一——无论是库存备货、营销预算制定、产能规划,还是战略布局,都需要基于精准的销售 ...
2026-03-09金融数据分析的核心价值,是通过挖掘数据规律、识别风险、捕捉机会,为投资决策、风险控制、业务优化提供精准支撑——而这一切的 ...
2026-03-09在数据驱动决策的时代,CDA(Certified Data Analyst)数据分析师的核心工作,是通过数据解读业务、支撑决策,而指标与指标体系 ...
2026-03-09在数据处理的全流程中,数据呈现与数据分析是两个紧密关联却截然不同的核心环节。无论是科研数据整理、企业业务复盘,还是日常数 ...
2026-03-06在数据分析、数据预处理场景中,dat文件是一种常见的二进制或文本格式数据文件,广泛应用于科研数据、工程数据、传感器数据等领 ...
2026-03-06在数据驱动决策的时代,CDA(Certified Data Analyst)数据分析师的核心价值,早已超越单纯的数据清洗与统计分析,而是通过数据 ...
2026-03-06在教学管理、培训数据统计、课程体系搭建等场景中,经常需要对课时数据进行排序并实现累加计算——比如,按课程章节排序,累加各 ...
2026-03-05在数据分析场景中,环比是衡量数据短期波动的核心指标——它通过对比“当前周期与上一个相邻周期”的数据,直观反映指标的月度、 ...
2026-03-05