京公网安备 11010802034615号
经营许可证编号:京B2-20210330
抓住大数据发展的关键问题_数据分析师
在今年“双十一”电商大战中,刚刚上市的阿里巴巴以日销售额571亿元引来全球关注,大数据应用也成为其中的一个新亮点。大数据应用今年以来获得快速发展,百度、阿里等网络巨头与行业领军企业都在谋求大数据应用的发展,国家部委及地方政府对发展大数据兴趣浓厚,纷纷推出行动计划。但人们对于大数据却总有些雾里看花的感觉。
究竟什么是大数据?为什么大家竞相发展大数据?大数据会对经济发展产生什么影响?为此,中国经济时报记者专访了国务院发展研究中心技术经济研究部第二研究室主任田杰棠。
怎样挖掘非结构化数据是关键
中国经济时报:今年大数据发展加速,但“大数据”仍是一个新生事物,目前还没有形成学术上的定义,所以人们对大数据的认识、理解比较模糊。您作为研究技术经济的专家,怎么理解大数据?
田杰棠:互联网应用以来,从2005年开始,数据在不断地增长,到2010年以后基本上是一个指数增长的过程,到2013年时已经超过4个ZB(10万亿亿字节),每年的增长率超过50%。这是一个从量变到质变的过程,因此“大”的概念就蹦出来了,但它其实不是一个严格的学术概念。
现在谈大数据的定义,最多的就是所谓的四个“V”,第一个“V”就是它的实际规模。
第二个“V”是多样的数据类型,尤其是里面包涵了大量的非结构化数据。
第三个“V”是价值,有两点:一个是价值大,大数据带来各种可能性;另外一个比较重要的是,它虽然量很大、价值也很大,但是密度很低。
第四个“V”就是动态数据的快速处理。这里面比较核心的,也是大数据将来能不能从“可能”到“可行”转变的两个要素,即:非结构化和低密度。如果技术上能解决怎么分析非结构化数据、怎么从低密度价值里面提取数据的价值,那么大数据的应用可能就会有一个飞跃式增长。所以,我觉得非结构化和低密度可能是大数据的核心东西。
中国经济时报:您认为大数据未来需要关注更多的非结构化数据处理,那么需要什么技术促进大数据发展产生飞跃?
田杰棠:大数据要快速发展,前提就是数据的存储技术和挖掘技术的发展以及技术成本的不断降低。
现在数据的来源是非常多的,主要可以分为物的数据和人的数据。物的数据基本是结构化的数据,是比较好存储分析的。但人的数据,又主要是非结构化的数据,目前对非结构化数据的处理还是一个难点。
这两年,随着IT成本的下降,云计算的使用率在不断上升,现在云储存的成本是在慢慢降低的。因为IT成本的下降和云计算发展,数据存储成本得以下降,数据量才能出现指数倍增长。
未来的数据更多的是人的数据,是非结构化的数据,因为大数据具有价值大但价值密度低的特点,目前数据挖掘分析技术成本还很高,尤其是对非结构化的数据的分析挖掘技术。所以,未来大数据要得到快速发展,必须把数据挖掘技术成本降下来。
大数据发展对经济的影响和前景
中国经济时报:科技的发展必然会对经济产生影响,大数据的应用对经济有何影响?
田杰棠:如果从宏观或者立体的角度看,人类整个经济发展的过程其实就是不断把一些不可利用的资源变成可利用资源的过程。这个过程一般就是技术的一个个大突破,当然每一次技术突破都伴随着不断的、大量的投资过程,并将其转化成价值。
实际上很多发达国家在2008年金融危机以后寄希望于一套新技术来摆脱实体经济的衰落和危机,大数据、云计算、新能源都是被寄予厚望的几个关键技术之一。
1995年,Bresnahan和Trajtenberg教授提出了通用目的技术,通用目的技术的特征就是它在许许多多的部门都具有广泛而且普遍深入使用的潜力和技术活力。
如果我们从增长的视角来观察大数据的话,一个核心的问题就是:大数据会不会成为我们期待的下一代的通用目的技术?如果是的话,它可能会带来比较显著的经济增长效应。
麦肯锡研究院分析认为大数据影响的面是比较广的,包括了教育、交通、零售、电器、能源以及医疗、金融等等,有可能会每年为世界带来大概3万亿美元至5万亿美元的经济效应,但这个情况目前还只是一个预测。
从经济波动和政府干预的视角看,大数据也会带来一些冲击效应。大数据的发展能否真正改善供需平衡?淘宝曾经做的“订单农业”、“抢先购”以及“家电定制”,都是先收集需求数据情况,再组织生产的事例,在当时的效果都是不错的。收集全国所有的数据,在目前还有点困难。但至少从这个角度是有这种可能性,值得思考。比如政府干预是不是比以前更加不必要了。
中国经济时报:可以发现许多国家都在发展大数据,中国一些龙头企业也在做大数据,您认为大数据的发展前景怎么样?
田杰棠:IDC在2013年认为,2017年大数据市场规模将达324亿美元,麦肯锡也认为大数据会带动其他产业每年有3万亿美元至5万亿美元的增长,这里面的乘数效应是非常大的。在中国,工信部下属的赛迪做过一个关于投资的预测:对大数据的投资从2012年到2015年大概每年增长100%左右,这个速度甚至超过国外的速度。
我国的领导层也比较关注大数据,从2012年以后,科技部、发改委、工信部等部委在研发、探索和产业化专项上,陆续支持了一批大数据项目,不少地方政府也在搞大数据,比如陕西的“大数据科学园区”经、广东的“大数据战略合作方案”、上海的“大数据研发三年行动计划”等等,基本是“多点开花”的状态。
另外像BAT(百度、阿里、腾讯)这样的互联网龙头企业也都在做大数据。所以大数据的发展前景还是非常可期的。
大数据发展的制度建设和政府作用
中国经济时报:目前数据的流通并不通畅,政府的大部分数据在目前也没有公开。大数据发展需要怎样的制度建设?
田杰棠:现在一个很核心的问题是如何界定数据的产权,产权的界定是大数据交易和商业化的前提。
数据的所有权、使用权应该如何界定才能达到最大的经济效应?比如数据企业,包括阿里巴巴或者国内其他公司,他们对数据在什么层次上有使用权?什么情况下可以不经过数据生产者的同意就可以使用?数据的生产者对数据到底有哪些权利?这些都是值得思考的问题。
另外,政府及公共机构的数据是否应该开放?是不是应该把使用权让渡给社会?或者说哪些数据应该开放,开放到什么程度?在中国,政府、部分事业单位有非常多的数据,但是使用得非常不充分。
怎么去界定数据产权至少需要三个层次的立法:其一,数据的商业运用应该是什么边界?个人隐私保护应该在什么边界?政府数据的公开应该在什么边界?另外,还有其他的制度需求,需要公平竞争的环境,例如对金融行业使用大数据的前景是非常好的,但现在也存在很多的市场准入门槛,使银行仅靠存贷差就可以过好日子。
其二,数据安全或者信息安全的问题。关于这点甚至提得更高,说“数据主权比产权还高”,包括一些安全预警与审查机制;数据存储的地域限制;再如对国家数据的外泄要立法等。
其三,行业性立法。中国的医疗行业,在大数据出现之前,病历在医院已经电子化了,但是不同医院之间仍然不能够共享,所以这也是一个体制问题。如果能通过行业性立法,把这些能够利用的大数据都放在一个平台上,那情况就大不一样了。
中国经济时报:在大数据发展中政府应该起什么作用,如何推动大数据的发展?
田杰棠:首先来看国外政府在做什么。2012年美国政府推出“大数据行动计划”,已经炒得很热。主要是在研究和应用上投了很多钱。
奥巴马2013年签署法令,要求所有新增政府数据都必须以电脑文件方式向公众开放。白宫颁布了开放数据政策,要求政府部门列出所有可公开的数据清单。如果不可公开的话,也要做出说明,为什么不可公开?
在政府采购方面,云计算时,联邦政府还任命了一个首席技术官,专门推进联邦政府和部门的云计算应用。现在数据服务可能也是这样。
最后要制定法规。这不仅是中国的问题,也有医疗、教育、个人隐私等方面的问题,也需要制定法规。在欧洲,有关个人隐私的法律很多,还有很多的工作要做。
关于大数据的发展有几点建议:不要急于出台所谓的战略性规划和设立产业专项资金。合理改造、建设和布局好IT基础设施,除云计算外,主要就是加快“宽带普及提速工程”。推动隐私保护和公共机构信息公开等立法。资助大数据基础技术研究,包括人才培养。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在数字化运营中,“凭感觉做决策” 早已成为过去式 —— 运营指标作为业务增长的 “晴雨表” 与 “导航仪”,直接决定了运营动作 ...
2025-10-24在卷积神经网络(CNN)的训练中,“卷积层(Conv)后是否添加归一化(如 BN、LN)和激活函数(如 ReLU、GELU)” 是每个开发者都 ...
2025-10-24在数据决策链条中,“统计分析” 是挖掘数据规律的核心,“可视化” 是呈现规律的桥梁 ——CDA(Certified Data Analyst)数据分 ...
2025-10-24在 “神经网络与卡尔曼滤波融合” 的理论基础上,Python 凭借其丰富的科学计算库(NumPy、FilterPy)、深度学习框架(PyTorch、T ...
2025-10-23在工业控制、自动驾驶、机器人导航、气象预测等领域,“状态估计” 是核心任务 —— 即从含噪声的观测数据中,精准推断系统的真 ...
2025-10-23在数据分析全流程中,“数据清洗” 恰似烹饪前的食材处理:若食材(数据)腐烂变质、混杂异物(脏数据),即便拥有精湛的烹饪技 ...
2025-10-23在人工智能领域,“大模型” 已成为近年来的热点标签:从参数超 1750 亿的 GPT-3,到万亿级参数的 PaLM,再到多模态大模型 GPT-4 ...
2025-10-22在 MySQL 数据库的日常运维与开发中,“更新数据是否会影响读数据” 是一个高频疑问。这个问题的答案并非简单的 “是” 或 “否 ...
2025-10-22在企业数据分析中,“数据孤岛” 是制约分析深度的核心瓶颈 —— 用户数据散落在注册系统、APP 日志、客服记录中,订单数据分散 ...
2025-10-22在神经网络设计中,“隐藏层个数” 是决定模型能力的关键参数 —— 太少会导致 “欠拟合”(模型无法捕捉复杂数据规律,如用单隐 ...
2025-10-21在特征工程流程中,“单变量筛选” 是承上启下的关键步骤 —— 它通过分析单个特征与目标变量的关联强度,剔除无意义、冗余的特 ...
2025-10-21在数据分析全流程中,“数据读取” 常被误解为 “简单的文件打开”—— 双击 Excel、执行基础 SQL 查询即可完成。但对 CDA(Cert ...
2025-10-21在实际业务数据分析中,我们遇到的大多数数据并非理想的正态分布 —— 电商平台的用户消费金额(少数用户单次消费上万元,多数集 ...
2025-10-20在数字化交互中,用户的每一次操作 —— 从电商平台的 “浏览商品→加入购物车→查看评价→放弃下单”,到内容 APP 的 “点击短 ...
2025-10-20在数据分析的全流程中,“数据采集” 是最基础也最关键的环节 —— 如同烹饪前需备好新鲜食材,若采集的数据不完整、不准确或不 ...
2025-10-20在数据成为新时代“石油”的今天,几乎每个职场人都在焦虑: “为什么别人能用数据驱动决策、升职加薪,而我面对Excel表格却无从 ...
2025-10-18数据清洗是 “数据价值挖掘的前置关卡”—— 其核心目标是 “去除噪声、修正错误、规范格式”,但前提是不破坏数据的真实业务含 ...
2025-10-17在数据汇总分析中,透视表凭借灵活的字段重组能力成为核心工具,但原始透视表仅能呈现数值结果,缺乏对数据背景、异常原因或业务 ...
2025-10-17在企业管理中,“凭经验定策略” 的传统模式正逐渐失效 —— 金融机构靠 “研究员主观判断” 选股可能错失收益,电商靠 “运营拍 ...
2025-10-17在数据库日常操作中,INSERT INTO SELECT是实现 “批量数据迁移” 的核心 SQL 语句 —— 它能直接将一个表(或查询结果集)的数 ...
2025-10-16