京公网安备 11010802034615号
经营许可证编号:京B2-20210330
抓住大数据发展的关键问题_数据分析师
在今年“双十一”电商大战中,刚刚上市的阿里巴巴以日销售额571亿元引来全球关注,大数据应用也成为其中的一个新亮点。大数据应用今年以来获得快速发展,百度、阿里等网络巨头与行业领军企业都在谋求大数据应用的发展,国家部委及地方政府对发展大数据兴趣浓厚,纷纷推出行动计划。但人们对于大数据却总有些雾里看花的感觉。
究竟什么是大数据?为什么大家竞相发展大数据?大数据会对经济发展产生什么影响?为此,中国经济时报记者专访了国务院发展研究中心技术经济研究部第二研究室主任田杰棠。
怎样挖掘非结构化数据是关键
中国经济时报:今年大数据发展加速,但“大数据”仍是一个新生事物,目前还没有形成学术上的定义,所以人们对大数据的认识、理解比较模糊。您作为研究技术经济的专家,怎么理解大数据?
田杰棠:互联网应用以来,从2005年开始,数据在不断地增长,到2010年以后基本上是一个指数增长的过程,到2013年时已经超过4个ZB(10万亿亿字节),每年的增长率超过50%。这是一个从量变到质变的过程,因此“大”的概念就蹦出来了,但它其实不是一个严格的学术概念。
现在谈大数据的定义,最多的就是所谓的四个“V”,第一个“V”就是它的实际规模。
第二个“V”是多样的数据类型,尤其是里面包涵了大量的非结构化数据。
第三个“V”是价值,有两点:一个是价值大,大数据带来各种可能性;另外一个比较重要的是,它虽然量很大、价值也很大,但是密度很低。
第四个“V”就是动态数据的快速处理。这里面比较核心的,也是大数据将来能不能从“可能”到“可行”转变的两个要素,即:非结构化和低密度。如果技术上能解决怎么分析非结构化数据、怎么从低密度价值里面提取数据的价值,那么大数据的应用可能就会有一个飞跃式增长。所以,我觉得非结构化和低密度可能是大数据的核心东西。
中国经济时报:您认为大数据未来需要关注更多的非结构化数据处理,那么需要什么技术促进大数据发展产生飞跃?
田杰棠:大数据要快速发展,前提就是数据的存储技术和挖掘技术的发展以及技术成本的不断降低。
现在数据的来源是非常多的,主要可以分为物的数据和人的数据。物的数据基本是结构化的数据,是比较好存储分析的。但人的数据,又主要是非结构化的数据,目前对非结构化数据的处理还是一个难点。
这两年,随着IT成本的下降,云计算的使用率在不断上升,现在云储存的成本是在慢慢降低的。因为IT成本的下降和云计算发展,数据存储成本得以下降,数据量才能出现指数倍增长。
未来的数据更多的是人的数据,是非结构化的数据,因为大数据具有价值大但价值密度低的特点,目前数据挖掘分析技术成本还很高,尤其是对非结构化的数据的分析挖掘技术。所以,未来大数据要得到快速发展,必须把数据挖掘技术成本降下来。
大数据发展对经济的影响和前景
中国经济时报:科技的发展必然会对经济产生影响,大数据的应用对经济有何影响?
田杰棠:如果从宏观或者立体的角度看,人类整个经济发展的过程其实就是不断把一些不可利用的资源变成可利用资源的过程。这个过程一般就是技术的一个个大突破,当然每一次技术突破都伴随着不断的、大量的投资过程,并将其转化成价值。
实际上很多发达国家在2008年金融危机以后寄希望于一套新技术来摆脱实体经济的衰落和危机,大数据、云计算、新能源都是被寄予厚望的几个关键技术之一。
1995年,Bresnahan和Trajtenberg教授提出了通用目的技术,通用目的技术的特征就是它在许许多多的部门都具有广泛而且普遍深入使用的潜力和技术活力。
如果我们从增长的视角来观察大数据的话,一个核心的问题就是:大数据会不会成为我们期待的下一代的通用目的技术?如果是的话,它可能会带来比较显著的经济增长效应。
麦肯锡研究院分析认为大数据影响的面是比较广的,包括了教育、交通、零售、电器、能源以及医疗、金融等等,有可能会每年为世界带来大概3万亿美元至5万亿美元的经济效应,但这个情况目前还只是一个预测。
从经济波动和政府干预的视角看,大数据也会带来一些冲击效应。大数据的发展能否真正改善供需平衡?淘宝曾经做的“订单农业”、“抢先购”以及“家电定制”,都是先收集需求数据情况,再组织生产的事例,在当时的效果都是不错的。收集全国所有的数据,在目前还有点困难。但至少从这个角度是有这种可能性,值得思考。比如政府干预是不是比以前更加不必要了。
中国经济时报:可以发现许多国家都在发展大数据,中国一些龙头企业也在做大数据,您认为大数据的发展前景怎么样?
田杰棠:IDC在2013年认为,2017年大数据市场规模将达324亿美元,麦肯锡也认为大数据会带动其他产业每年有3万亿美元至5万亿美元的增长,这里面的乘数效应是非常大的。在中国,工信部下属的赛迪做过一个关于投资的预测:对大数据的投资从2012年到2015年大概每年增长100%左右,这个速度甚至超过国外的速度。
我国的领导层也比较关注大数据,从2012年以后,科技部、发改委、工信部等部委在研发、探索和产业化专项上,陆续支持了一批大数据项目,不少地方政府也在搞大数据,比如陕西的“大数据科学园区”经、广东的“大数据战略合作方案”、上海的“大数据研发三年行动计划”等等,基本是“多点开花”的状态。
另外像BAT(百度、阿里、腾讯)这样的互联网龙头企业也都在做大数据。所以大数据的发展前景还是非常可期的。
大数据发展的制度建设和政府作用
中国经济时报:目前数据的流通并不通畅,政府的大部分数据在目前也没有公开。大数据发展需要怎样的制度建设?
田杰棠:现在一个很核心的问题是如何界定数据的产权,产权的界定是大数据交易和商业化的前提。
数据的所有权、使用权应该如何界定才能达到最大的经济效应?比如数据企业,包括阿里巴巴或者国内其他公司,他们对数据在什么层次上有使用权?什么情况下可以不经过数据生产者的同意就可以使用?数据的生产者对数据到底有哪些权利?这些都是值得思考的问题。
另外,政府及公共机构的数据是否应该开放?是不是应该把使用权让渡给社会?或者说哪些数据应该开放,开放到什么程度?在中国,政府、部分事业单位有非常多的数据,但是使用得非常不充分。
怎么去界定数据产权至少需要三个层次的立法:其一,数据的商业运用应该是什么边界?个人隐私保护应该在什么边界?政府数据的公开应该在什么边界?另外,还有其他的制度需求,需要公平竞争的环境,例如对金融行业使用大数据的前景是非常好的,但现在也存在很多的市场准入门槛,使银行仅靠存贷差就可以过好日子。
其二,数据安全或者信息安全的问题。关于这点甚至提得更高,说“数据主权比产权还高”,包括一些安全预警与审查机制;数据存储的地域限制;再如对国家数据的外泄要立法等。
其三,行业性立法。中国的医疗行业,在大数据出现之前,病历在医院已经电子化了,但是不同医院之间仍然不能够共享,所以这也是一个体制问题。如果能通过行业性立法,把这些能够利用的大数据都放在一个平台上,那情况就大不一样了。
中国经济时报:在大数据发展中政府应该起什么作用,如何推动大数据的发展?
田杰棠:首先来看国外政府在做什么。2012年美国政府推出“大数据行动计划”,已经炒得很热。主要是在研究和应用上投了很多钱。
奥巴马2013年签署法令,要求所有新增政府数据都必须以电脑文件方式向公众开放。白宫颁布了开放数据政策,要求政府部门列出所有可公开的数据清单。如果不可公开的话,也要做出说明,为什么不可公开?
在政府采购方面,云计算时,联邦政府还任命了一个首席技术官,专门推进联邦政府和部门的云计算应用。现在数据服务可能也是这样。
最后要制定法规。这不仅是中国的问题,也有医疗、教育、个人隐私等方面的问题,也需要制定法规。在欧洲,有关个人隐私的法律很多,还有很多的工作要做。
关于大数据的发展有几点建议:不要急于出台所谓的战略性规划和设立产业专项资金。合理改造、建设和布局好IT基础设施,除云计算外,主要就是加快“宽带普及提速工程”。推动隐私保护和公共机构信息公开等立法。资助大数据基础技术研究,包括人才培养。
CDA学员免费下载查看报告全文:2026全球数智化人才指数报告【CDA数据科学研究院】.pdf
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在Excel数据分析中,数据透视表是汇总、整理海量数据的高效工具,而公式则是实现数据二次计算、逻辑判断的核心功能。实际操作中 ...
2026-04-30Excel透视图是数据分析中不可或缺的工具,它能将透视表中的数据快速可视化,帮助我们直观捕捉数据规律、呈现分析结果。但在实际 ...
2026-04-30 很多数据分析师能熟练地计算指标、搭建标签体系,但当被问到“画像到底在解决什么问题”“画像和标签是什么关系”“画像如何 ...
2026-04-30在中介效应分析中,人口统计学变量(如年龄、性别、学历、收入、职业等)是常见的控制变量或调节变量,其处理方式直接影响分析结 ...
2026-04-29在SQL数据库实操中,日期数据的存储与显示是高频需求,而“数字日期”(如20240520、20241231、45321)是很多开发者、数据分析师 ...
2026-04-29 很多分析师在设计标签时思路清晰,但真到落地环节却面临“数据在手,不知如何转化为可用标签”的困境:或因加工方式选择不当 ...
2026-04-29在手游行业竞争日趋白热化的当下,“流量为王”早已升级为“留存为王”,而付费用户留存率更是衡量一款手游盈利能力、运营质量的 ...
2026-04-28在日常MySQL数据库运维与开发中,经常会遇到“同一台服务器上,两个不同数据库(以下简称“源库”“目标库”)的表数据需要保持 ...
2026-04-28 很多分析师每天和数据打交道,但当被问到“标签是什么”“标签和指标有什么区别”“标签体系如何设计”时,却常常答不上来。 ...
2026-04-28箱线图(Box Plot)作为一种经典的数据可视化工具,广泛应用于统计学、数据分析、科研实证等领域,核心价值在于直观呈现数据的集 ...
2026-04-27实证分析是社会科学、自然科学、经济管理等领域开展研究的核心范式,其核心逻辑是通过对多维度数据的收集、分析与解读,揭示变量 ...
2026-04-27 很多数据分析师精通Excel函数和数据透视表,但当被问到“数据从哪里来”“表和视图有什么区别”“数据库管理系统和SQL是什么 ...
2026-04-27在大数据技术飞速迭代、数字营销竞争日趋激烈的今天,“精准触达、高效转化、成本可控”已成为企业营销的核心诉求。传统广告投放 ...
2026-04-24在游戏行业竞争白热化的当下,用户流失已成为制约游戏生命周期、影响营收增长的核心痛点。据行业报告显示,2024年移动游戏平均次 ...
2026-04-24 很多业务负责人开会常说“我们要数据驱动”,最后却变成“看哪张报表数据多就用哪个”,往往因为缺乏一套结构性的方法去搭建 ...
2026-04-24在Power BI数据可视化分析中,切片器是连接用户与数据的核心交互工具,其核心价值在于帮助使用者快速筛选目标数据、聚焦分析重点 ...
2026-04-23以数为据,以析促优——数据分析结果指导临床技术改进的实践路径 临床技术是医疗服务的核心载体,其水平直接决定患者诊疗效果、 ...
2026-04-23很多数据分析师每天盯着GMV、DAU、转化率,但当被问到“哪些指标是所有企业都需要的”“哪些指标是因行业而异的”“北极星指标和 ...
2026-04-23在数字化时代,客户每一次点击、浏览、下单、咨询等行为,都在传递其潜在需求与决策倾向——这些按时间顺序串联的行为轨迹,构成 ...
2026-04-22数据是数据分析、建模与业务决策的核心基石,而“数据清洗”作为数据预处理的核心环节,是打通数据从“原始杂乱”到“干净可用” ...
2026-04-22