我国大数据总量有望占全球两成，应用尚处于初级阶段-CDA数据分析师官网

热线电话：13121318867

首页精彩阅读我国大数据总量有望占全球两成，应用尚处于初级阶段

我国大数据总量有望占全球两成，应用尚处于初级阶段

2019-11-26

来源 | 21世纪经济报道

中国科学院院士、中国人民解放军军事科学院副院长梅宏认为，当前大数据应用尚处于初级阶段，根据大数据分析预测未来、指导实践的深层次应用将成为发展重点。

他指出，预计到2020年，我国数据总量有望占全球数据总量的21%，但我国核心技术薄弱，建议以开源为基础构建自主可控的大数据产业生态。

大数据应用三个层次

梅宏指出，按照数据开发应用深入程度的不同，可将众多的大数据应用分为三个层次。

第一层，描述性分析应用，是指从大数据中总结、抽取相关的信息和知识，帮助人们分析发生了什么，并呈现事物的发展历程。

如美国的DOMO公司从其企业客户的各个信息系统中抽取、整合数据，再以统计图表等可视化形式，将数据蕴含的信息推送给不同岗位的业务人员和管理者，帮助其更好地了解企业现状，进而做出判断和决策。

第二层，预测性分析应用，是指从大数据中分析事物之间的关联关系、发展模式等，并据此对事物发展的趋势进行预测。

如微软公司纽约研究院研究员David Rothschild通过收集和分析赌博市场、好莱坞证券交易所、社交媒体用户发布的帖子等大量公开数据，建立预测模型，对多届奥斯卡奖项的归属进行预测。2014和2015年，均准确预测了奥斯卡共24个奖项中的21个，准确率达87.5%。

第三层，指导性分析应用，是指在前两个层次的基础上，分析不同决策将导致的后果，并对决策进行指导和优化。

如无人驾驶汽车分析高精度地图数据和海量的激光雷达、摄像头等传感器的实时感知数据，对车辆不同驾驶行为的后果进行预判，并据此指导车辆的自动驾驶。

自动驾驶有效应用面临挑战

梅宏认为，当前，在大数据应用的实践中，描述性、预测性分析应用多，决策指导性等更深层次分析应用偏少。

一般而言，人们做出决策的流程通常包括：认知现状、预测未来和选择策略这三个基本步骤。这些步骤也对应了上述大数据分析应用的三个不同类型。

不同类型的应用意味着人类和计算机在决策流程中不同的分工和协作。例如：第一层次的描述性分析中，计算机仅负责将与现状相关的信息和知识展现给人类专家，而对未来态势的判断及对最优策略的选择仍然由人类专家完成。应用层次越深，计算机承担的任务越多、越复杂，效率提升也越大，价值也越大。

然而，随着研究应用的不断深入，人们逐渐意识到前期在大数据分析应用中大放异彩的深度神经网络尚存在基础理论不完善、模型不具可解释性、鲁棒性较差等问题。

因此，虽然应用层次最深的决策指导性应用，当前已在人机博弈等非关键性领域取得较好应用效果，但是，在自动驾驶、政府决策、军事指挥、医疗健康等应用价值更高，且与人类生命、财产、发展和安全紧密关联的领域，要真正获得有效应用，仍面临一系列待解决的重大基础理论和核心技术挑战。

梅宏指出，在此之前，人们还不敢、也不能放手将更多的任务交由计算机大数据分析系统来完成。这也意味着，虽然已有很多成功的大数据应用案例，但还远未达到我们的预期，大数据应用仍处于初级阶段。

未来，随着应用领域的拓展、技术的提升、数据共享开放机制的完善，以及产业生态的成熟，具有更大潜在价值的预测性和指导性应用将是发展的重点。

工业互联网政府热、企业冷

作为人口大国和制造大国，我国数据产生能力巨大，大数据资源极为丰富。

梅宏指出，预计到2020年，我国数据总量有望达到8000EB(1018)，占全球数据总量的21%，将成为名列前茅的数据资源大国和全球数据中心。

然而，我们也必须清醒地认识到我国在大数据方面仍存在一系列亟待补上的短板。

其中较为突出的是核心技术薄弱，基础理论与核心技术的落后导致我国信息技术长期存在“空心化”和“低端化”问题，大数据时代需避免此问题在新一轮发展中再次出现。

近年来，我国在大数据应用领域取得较大进展，但是基础理论、核心器件和算法、软件等层面，较之美国等技术发达国家仍明显落后。

在大数据管理、处理系统与工具方面，我国主要依赖国外开源社区的开源软件，然而，由于我国对国际开源社区的影响力较弱，导致对大数据技术生态缺乏自主可控能力，成为制约我国大数据产业发展和国际化运营的重大隐患。

梅宏建议采用“参与融入、蓄势引领”的开源推进策略，一方面鼓励我国企业积极“参与融入”国际成熟的开源社区，争取话语权;另一方面，也要在建设基于中文的开源社区方面加大投入，汇聚国内软硬件资源和开源人才，打造自主可控开源生态，在学习实践中逐渐成长壮大，伺机实现引领发展。

此外，融合应用有待深化。梅宏指出我国大数据与实体经济融合不够深入，主要问题表现在：基础设施配置不到位，数据采集难度大;缺乏有效引导与支撑，实体经济数字化转型缓慢;缺乏自主可控的数据互联共享平台等。

当前，工业互联网成为互联网发展的新领域，然而仍存在不少问题：政府热、企业冷，政府时有“项目式”、“运动式”推进，而企业由于没看到直接、快捷的好处，接受度低;设备设施的数字化率和联网率偏低;大多数大企业仍然倾向打造难以与外部系统交互数据的封闭系统，而众多中小企业数字化转型的动力和能力严重不足;国外厂商的设备在我国具有垄断地位，这些企业纷纷推出相应的工业互联网平台，抢占工业领域的大数据基础服务市场。

梅宏建议大力发展行业大数据应用。以制造业为例，麦肯锡研究报告称：制造企业在利用大数据技术后，其生产成本能够降低10%—15%。

而大数据技术对制造业的影响远非成本这一个方面。利用源于产品生命周期中市场、设计、制造、服务、再利用等各个环节数据，制造业企业可以更加精细、个性化地了解客户需求;建立更加精益化、柔性化、智能化的生产系统;创造包括销售产品、服务、价值等多样的商业模式;并实现从应激式到预防式的工业系统运转管理模式的转变。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；