
抓住大数据发展的关键问题_数据分析师
在今年“双十一”电商大战中,刚刚上市的阿里巴巴以日销售额571亿元引来全球关注,大数据应用也成为其中的一个新亮点。大数据应用今年以来获得快速发展,百度、阿里等网络巨头与行业领军企业都在谋求大数据应用的发展,国家部委及地方政府对发展大数据兴趣浓厚,纷纷推出行动计划。但人们对于大数据却总有些雾里看花的感觉。
究竟什么是大数据?为什么大家竞相发展大数据?大数据会对经济发展产生什么影响?为此,中国经济时报记者专访了国务院发展研究中心技术经济研究部第二研究室主任田杰棠。
怎样挖掘非结构化数据是关键
中国经济时报:今年大数据发展加速,但“大数据”仍是一个新生事物,目前还没有形成学术上的定义,所以人们对大数据的认识、理解比较模糊。您作为研究技术经济的专家,怎么理解大数据?
田杰棠:互联网应用以来,从2005年开始,数据在不断地增长,到2010年以后基本上是一个指数增长的过程,到2013年时已经超过4个ZB(10万亿亿字节),每年的增长率超过50%。这是一个从量变到质变的过程,因此“大”的概念就蹦出来了,但它其实不是一个严格的学术概念。
现在谈大数据的定义,最多的就是所谓的四个“V”,第一个“V”就是它的实际规模。
第二个“V”是多样的数据类型,尤其是里面包涵了大量的非结构化数据。
第三个“V”是价值,有两点:一个是价值大,大数据带来各种可能性;另外一个比较重要的是,它虽然量很大、价值也很大,但是密度很低。
第四个“V”就是动态数据的快速处理。这里面比较核心的,也是大数据将来能不能从“可能”到“可行”转变的两个要素,即:非结构化和低密度。如果技术上能解决怎么分析非结构化数据、怎么从低密度价值里面提取数据的价值,那么大数据的应用可能就会有一个飞跃式增长。所以,我觉得非结构化和低密度可能是大数据的核心东西。
中国经济时报:您认为大数据未来需要关注更多的非结构化数据处理,那么需要什么技术促进大数据发展产生飞跃?
田杰棠:大数据要快速发展,前提就是数据的存储技术和挖掘技术的发展以及技术成本的不断降低。
现在数据的来源是非常多的,主要可以分为物的数据和人的数据。物的数据基本是结构化的数据,是比较好存储分析的。但人的数据,又主要是非结构化的数据,目前对非结构化数据的处理还是一个难点。
这两年,随着IT成本的下降,云计算的使用率在不断上升,现在云储存的成本是在慢慢降低的。因为IT成本的下降和云计算发展,数据存储成本得以下降,数据量才能出现指数倍增长。
未来的数据更多的是人的数据,是非结构化的数据,因为大数据具有价值大但价值密度低的特点,目前数据挖掘分析技术成本还很高,尤其是对非结构化的数据的分析挖掘技术。所以,未来大数据要得到快速发展,必须把数据挖掘技术成本降下来。
大数据发展对经济的影响和前景
中国经济时报:科技的发展必然会对经济产生影响,大数据的应用对经济有何影响?
田杰棠:如果从宏观或者立体的角度看,人类整个经济发展的过程其实就是不断把一些不可利用的资源变成可利用资源的过程。这个过程一般就是技术的一个个大突破,当然每一次技术突破都伴随着不断的、大量的投资过程,并将其转化成价值。
实际上很多发达国家在2008年金融危机以后寄希望于一套新技术来摆脱实体经济的衰落和危机,大数据、云计算、新能源都是被寄予厚望的几个关键技术之一。
1995年,Bresnahan和Trajtenberg教授提出了通用目的技术,通用目的技术的特征就是它在许许多多的部门都具有广泛而且普遍深入使用的潜力和技术活力。
如果我们从增长的视角来观察大数据的话,一个核心的问题就是:大数据会不会成为我们期待的下一代的通用目的技术?如果是的话,它可能会带来比较显著的经济增长效应。
麦肯锡研究院分析认为大数据影响的面是比较广的,包括了教育、交通、零售、电器、能源以及医疗、金融等等,有可能会每年为世界带来大概3万亿美元至5万亿美元的经济效应,但这个情况目前还只是一个预测。
从经济波动和政府干预的视角看,大数据也会带来一些冲击效应。大数据的发展能否真正改善供需平衡?淘宝曾经做的“订单农业”、“抢先购”以及“家电定制”,都是先收集需求数据情况,再组织生产的事例,在当时的效果都是不错的。收集全国所有的数据,在目前还有点困难。但至少从这个角度是有这种可能性,值得思考。比如政府干预是不是比以前更加不必要了。
中国经济时报:可以发现许多国家都在发展大数据,中国一些龙头企业也在做大数据,您认为大数据的发展前景怎么样?
田杰棠:IDC在2013年认为,2017年大数据市场规模将达324亿美元,麦肯锡也认为大数据会带动其他产业每年有3万亿美元至5万亿美元的增长,这里面的乘数效应是非常大的。在中国,工信部下属的赛迪做过一个关于投资的预测:对大数据的投资从2012年到2015年大概每年增长100%左右,这个速度甚至超过国外的速度。
我国的领导层也比较关注大数据,从2012年以后,科技部、发改委、工信部等部委在研发、探索和产业化专项上,陆续支持了一批大数据项目,不少地方政府也在搞大数据,比如陕西的“大数据科学园区”经、广东的“大数据战略合作方案”、上海的“大数据研发三年行动计划”等等,基本是“多点开花”的状态。
另外像BAT(百度、阿里、腾讯)这样的互联网龙头企业也都在做大数据。所以大数据的发展前景还是非常可期的。
大数据发展的制度建设和政府作用
中国经济时报:目前数据的流通并不通畅,政府的大部分数据在目前也没有公开。大数据发展需要怎样的制度建设?
田杰棠:现在一个很核心的问题是如何界定数据的产权,产权的界定是大数据交易和商业化的前提。
数据的所有权、使用权应该如何界定才能达到最大的经济效应?比如数据企业,包括阿里巴巴或者国内其他公司,他们对数据在什么层次上有使用权?什么情况下可以不经过数据生产者的同意就可以使用?数据的生产者对数据到底有哪些权利?这些都是值得思考的问题。
另外,政府及公共机构的数据是否应该开放?是不是应该把使用权让渡给社会?或者说哪些数据应该开放,开放到什么程度?在中国,政府、部分事业单位有非常多的数据,但是使用得非常不充分。
怎么去界定数据产权至少需要三个层次的立法:其一,数据的商业运用应该是什么边界?个人隐私保护应该在什么边界?政府数据的公开应该在什么边界?另外,还有其他的制度需求,需要公平竞争的环境,例如对金融行业使用大数据的前景是非常好的,但现在也存在很多的市场准入门槛,使银行仅靠存贷差就可以过好日子。
其二,数据安全或者信息安全的问题。关于这点甚至提得更高,说“数据主权比产权还高”,包括一些安全预警与审查机制;数据存储的地域限制;再如对国家数据的外泄要立法等。
其三,行业性立法。中国的医疗行业,在大数据出现之前,病历在医院已经电子化了,但是不同医院之间仍然不能够共享,所以这也是一个体制问题。如果能通过行业性立法,把这些能够利用的大数据都放在一个平台上,那情况就大不一样了。
中国经济时报:在大数据发展中政府应该起什么作用,如何推动大数据的发展?
田杰棠:首先来看国外政府在做什么。2012年美国政府推出“大数据行动计划”,已经炒得很热。主要是在研究和应用上投了很多钱。
奥巴马2013年签署法令,要求所有新增政府数据都必须以电脑文件方式向公众开放。白宫颁布了开放数据政策,要求政府部门列出所有可公开的数据清单。如果不可公开的话,也要做出说明,为什么不可公开?
在政府采购方面,云计算时,联邦政府还任命了一个首席技术官,专门推进联邦政府和部门的云计算应用。现在数据服务可能也是这样。
最后要制定法规。这不仅是中国的问题,也有医疗、教育、个人隐私等方面的问题,也需要制定法规。在欧洲,有关个人隐私的法律很多,还有很多的工作要做。
关于大数据的发展有几点建议:不要急于出台所谓的战略性规划和设立产业专项资金。合理改造、建设和布局好IT基础设施,除云计算外,主要就是加快“宽带普及提速工程”。推动隐私保护和公共机构信息公开等立法。资助大数据基础技术研究,包括人才培养。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
Excel 数据聚类分析:从操作实践到业务价值挖掘 在数据分析场景中,聚类分析作为 “无监督分组” 的核心工具,能从杂乱数据中挖 ...
2025-09-10统计模型的核心目的:从数据解读到决策支撑的价值导向 统计模型作为数据分析的核心工具,并非简单的 “公式堆砌”,而是围绕特定 ...
2025-09-10CDA 数据分析师:商业数据分析实践的落地者与价值创造者 商业数据分析的价值,最终要在 “实践” 中体现 —— 脱离业务场景的分 ...
2025-09-10机器学习解决实际问题的核心关键:从业务到落地的全流程解析 在人工智能技术落地的浪潮中,机器学习作为核心工具,已广泛应用于 ...
2025-09-09SPSS 编码状态区域中 Unicode 的功能与价值解析 在 SPSS(Statistical Product and Service Solutions,统计产品与服务解决方案 ...
2025-09-09CDA 数据分析师:驾驭商业数据分析流程的核心力量 在商业决策从 “经验驱动” 向 “数据驱动” 转型的过程中,商业数据分析总体 ...
2025-09-09R 语言:数据科学与科研领域的核心工具及优势解析 一、引言 在数据驱动决策的时代,无论是科研人员验证实验假设(如前文中的 T ...
2025-09-08T 检验在假设检验中的应用与实践 一、引言 在科研数据分析、医学实验验证、经济指标对比等领域,常常需要判断 “样本间的差异是 ...
2025-09-08在商业竞争日益激烈的当下,“用数据说话” 已从企业的 “加分项” 变为 “生存必需”。然而,零散的数据分析无法持续为业务赋能 ...
2025-09-08随机森林算法的核心特点:原理、优势与应用解析 在机器学习领域,随机森林(Random Forest)作为集成学习(Ensemble Learning) ...
2025-09-05Excel 区域名定义:从基础到进阶的高效应用指南 在 Excel 数据处理中,频繁引用单元格区域(如A2:A100、B3:D20)不仅容易出错, ...
2025-09-05CDA 数据分析师:以六大分析方法构建数据驱动业务的核心能力 在数据驱动决策成为企业共识的当下,CDA(Certified Data Analyst) ...
2025-09-05SQL 日期截取:从基础方法到业务实战的全维度解析 在数据处理与业务分析中,日期数据是连接 “业务行为” 与 “时间维度” 的核 ...
2025-09-04在卷积神经网络(CNN)的发展历程中,解决 “梯度消失”“特征复用不足”“模型参数冗余” 一直是核心命题。2017 年提出的密集连 ...
2025-09-04CDA 数据分析师:驾驭数据范式,释放数据价值 在数字化转型浪潮席卷全球的当下,数据已成为企业核心生产要素。而 CDA(Certified ...
2025-09-04K-Means 聚类:无监督学习中数据分群的核心算法 在数据分析领域,当我们面对海量无标签数据(如用户行为记录、商品属性数据、图 ...
2025-09-03特征值、特征向量与主成分:数据降维背后的线性代数逻辑 在机器学习、数据分析与信号处理领域,“降维” 是破解高维数据复杂性的 ...
2025-09-03CDA 数据分析师与数据分析:解锁数据价值的关键 在数字经济高速发展的今天,数据已成为企业核心资产与社会发展的重要驱动力。无 ...
2025-09-03解析 loss.backward ():深度学习中梯度汇总与同步的自动触发核心 在深度学习模型训练流程中,loss.backward()是连接 “前向计算 ...
2025-09-02要解答 “画 K-S 图时横轴是等距还是等频” 的问题,需先明确 K-S 图的核心用途(检验样本分布与理论分布的一致性),再结合横轴 ...
2025-09-02