数据“沉睡”制约大数据产业发展
小到敲击键盘、迈开步子,大到征信系统、政务记录,数据已成这个时代最具活跃的要素和最有价值的“信息矿产”。无论“互联网+”、物联网还是智能制造,数据触角无所不在,影响着几乎所有产业生态未来走向。
中国信息通信研究院发布的《大数据白皮书(2016)》显示,未来5年,全球数据量将呈指数级增长,但庞大的总量并不意味着可完全有效的开发利用。据了解,除了技术瓶颈外,开放和合作的障碍正在让大量数据陷入“沉睡”。数据原材料的缺乏与信息“孤岛”的形成,严重制约着大数据产业的发展。
壁垒让数据“沉睡”
国际数据公司(IDC)的数据显示,按目前发展趋势,预计2020年全球大数据总存储量将达到44ZB(1ZB约等于10000亿GB)。我国数据总量为909EB(1EB约等于1000亿GB),占全球数据总量的13%。
目前数据层面的壁垒普遍存在于政企、企业间,业内人士表示,针对现状普遍是通过购买和“爬虫”(自动获取网页内容的手段)的方式获取,但数据存在不准确、不全和非结构化等问题。
“相比于行业间的数据流通,政企之间的壁垒更是一块沉睡数据的"集聚地"。”中关村(000931,股吧)大数据产业联盟秘书长赵国栋说,“目前一些上市数据如股权占比、科研数据都是价值密度比较高的"沉睡"数据。”
据中国信息通信研究院2015年对国内800多家企业的调研来看, 企业内部数据仍是大数据的主要来源。当前有32%的企业通过外部购买数据;只有18%的企业使用政府开放数据。
业内人士表示,大数据时代的数据资源广泛散布于政府、行业、企业三个子系统中,其中,信息数据资源80%以上掌握在各级政府部门手里。与此同时,区域部门间基本实现共享的省级地方仅占13%,区域部门间少量实现共享的地市和区县仅占32%和28%,信息共享和业务协同在地市和区县进展缓慢。
“如果更多数据可以开放,将会对产业转型、政务和公共服务效率提升等大有裨益。”上海至信普林科技有限公司总经理顾敏洁说,“比如中国人民银行上海总部自2006年起公开金融信息后,催生了一批金融信息咨询服务公司,其中包括5家上市公司。”
三大原因致数据孤岛“造成数据孤岛的成因是数据割据、技术壁垒和标准缺失。”赵国栋说。观念问题是主观意愿缺失的症结。“政府部门由于缺乏企业间基于共同利益开发这样的主观能动性,导致数据开放滞后。除了政府部门,一些大企业也应该认识到数据合理开放可以造就更好的行业生态价值。”
外部管理规范、法规的缺失也使部分主体对开放数据保持顾虑。“目前如果只遵循"谁的数据谁负责"这一简单的准则,要调动政府部门开放数据的积极性比较困难。”DT大数据产业创新研究院院长陈新河说。
除了主观意愿,技术和标准也是一道“硬门槛”。“比如目前信息共享的安全问题。公共云的运维工作面临着一些新的安全风险和挑战。计算环境从本地到云端的自身安全性是提高了,但由于公共云的运维管理工作必须通过互联网完成,和传统IT环境运维有很大不同,容易造成管理员权限被劫持攻击,造成运维管理账号和凭证泄露等问题。”顾敏洁说。
目前开放的数据同样因格式标准缺失成了“开放的孤岛”。公布类似停车位数量、开放非标准化的图表等形式的数据都是不可机读的。这类“伪开放”并没有真正整合数据的价值。“不同行业数据整合必然需要标准化的数据格式,比如从卫生、人口的角度用数据对"人"进行的描述就是不一样的。”全国信息安全标准化技术委员会大数据标准工作组成员张群说。
“因此目前要开放的应该是底层数据,而不仅提供根据数据分析出来的结果或产品。”业内专家表示,这类数据在技术上应该有其标准形式,可以被计算机抓取、调用,而且在法律上也是可以进行各种使用的。
开放整合数据需围绕应用场景
要打通数据孤岛,一方面是技术上的革新和标准化的推进,同时包括数据安全领域建设。“在物联网时代,需要从政府等层面推进包括身份识别、信息安全系统等庞大的安全体系建设。”赵国栋说。
“目前全国信息技术标准化技术委员会已推进获批了6项大数据领域的标准,包括了大数据技术参考模型、数据能力成熟度评价模型标准等。”张群说。
另一方面,在法律维度,立法推进的前提是明确数据权属。对此,赵国栋建议,可以参照土地管理的做法,将数据权属划分为所有权、处置权、使用权和收益权。“例如处置权应归国家,规定归档、删除的各种条件等。只有权属清楚才能推动法律保护。”
政府数据开放也并非一蹴而就,需要循序渐进。业内人士认为,不涉及隐私和安全的数据可以率先开放,比如气象这类数据。同时政府部门和行业协会可以推动统一数据平台的建设,改变目前碎片化的现状。
杭州市经济和信息化委云计算与大数据产业处处长黄左彦说:“杭州整合数据、搭建平台过程中的经验就是以项目为突破,目前类似"5G"车联网项目、城市数据大脑等都是以交通为突破点。由政府主导政务数据开放共享,企业自带资金深度合作开发,其中包括数据交流。”
“目前观念上有一个原则是被忽视的:即"开放是常规,封闭才是例外"。”陈新河说,“政企间或者政府牵头整合数据仍应围绕应用场景、项目工程来,否则目前"唤醒"的数据早晚也会重新"落满灰尘"。”
数据分析咨询请扫描二维码
CDA数据分析师在中国航信高科技产业园进行了面向测试度量的数据分析培训课程,培训人数近2 ...
2024-05-01CDA数据分析师走进深圳迈瑞生物医疗电子股份有限公司,在迈瑞总部展开了为期两天的培训,本次课程参训人员线上及线下近百人, ...
2024-05-01CDA数据分析师在合肥市对合肥阳光新能源科技有限公司开展了为期8天的企业内训。 合肥阳光新能源科技 ...
2024-05-01CDA数据分析师走进海尔大学,进行了《数据治理与数据中台建设的道与术》专题培训,培训现场爆满,近百人参加了此次培训。 ...
2024-05-01在中国银行苏州分行培训中心开始数据分析师培训,此次培训课程共10天内容,包括Excel、MySQL、概率论与数理统计、SPSS等内容, ...
2024-05-01从实际的业务需求出发,结合行业的典型应用特点,围绕实际的商业问题,探讨数据挖掘、机器学习模型在金融领域的应用,包括获客、信用评分、细分画像、交叉销售、反欺诈、违规识别、时序预测、运筹优化、流程挖掘九个方面,形成 ...
2024-05-01本次培训课程为线上+线下的模式,由于学员编程能力不一、部分学员没有编程基础,故提供统计学、python基 ...
2024-05-01华夏银行信用卡中心-机器学习培训 1、课程亮点 取材于业界一流企业和顶级咨询公司的行业实践;已经被证明是人人 ...
2024-05-01主 题:数据中台建设及数据分析应用主题分享 1. 数据中台市场洞察 2. 主流数据中台产品比较 3. 某企业数据中 ...
2024-05-01围绕“数据驱动”战略,全力打造我行 300 人数字化人才梯队,着力培养数字化管理人才、大数据专业团队 ...
2024-05-01在当今数据驱动的商业环境中,数据分析成为了企业决策的重要依据。通过对大量数据的收集、处理和分析,企业能够更好地理解市场 ...
2024-04-29在人工智能(AI)的世界里,提示词(Prompt)是一种强大的工具,它能够引导AI按照用户的需求产生特定的输出。本文将深入探讨AI ...
2024-04-29CDA立足未来职场,拓展前沿视野——对外经贸大学保险学院举办“三全育人大讲堂”分享行业最新动态。 ...
2024-04-294月2日,CDA数据分析师创始发起人兼协会理事长赵坚毅博士受邀在浙江万里学院举办了一场以“数字化能力在职场中的作用” ...
2024-04-29随机森林(Random Forests)现在机器学习中比较火的一个算法,是一种基于Bagging的集成学习方法,能够很好地处理分类和回归的问 ...
2022-12-23方差分析是数据分析中常用的一种统计分析方法,接下来让我们简单了解一下方差分析的基本思想和原理吧。 方差分析(Analysis ...
2022-12-23来源:关于数据分析与可视化 关于streamlit-aggrid 数据排序 表格样式的调整 数据 ...
2022-08-03作者:麦叔 定义 「把上面晦涩的概念汇成一句话就是:」 ❝ 回调函数就是一个被作为参 ...
2022-08-03现今,高学历人群日益增多,物以稀为贵的高学历光环淡去。无论本科生还是研究生,甚至博士生,求职竞争力都大不如前,就业压力越来越大。
2022-06-01某家企业10个人面试,有9个本科生……如何脱颖而出,除得体的举止和良好的沟通力外,证书成重要筹码,这也是很多人考证的关键所在。
2022-04-14