
来源 | 21世纪经济报道
中国科学院院士、中国人民解放军军事科学院副院长梅宏认为,当前大数据应用尚处于初级阶段,根据大数据分析预测未来、指导实践的深层次应用将成为发展重点。
他指出,预计到2020年,我国数据总量有望占全球数据总量的21%,但我国核心技术薄弱,建议以开源为基础构建自主可控的大数据产业生态。
大数据应用三个层次
梅宏指出,按照数据开发应用深入程度的不同,可将众多的大数据应用分为三个层次。
第一层,描述性分析应用,是指从大数据中总结、抽取相关的信息和知识,帮助人们分析发生了什么,并呈现事物的发展历程。
如美国的DOMO公司从其企业客户的各个信息系统中抽取、整合数据,再以统计图表等可视化形式,将数据蕴含的信息推送给不同岗位的业务人员和管理者,帮助其更好地了解企业现状,进而做出判断和决策。
第二层,预测性分析应用,是指从大数据中分析事物之间的关联关系、发展模式等,并据此对事物发展的趋势进行预测。
如微软公司纽约研究院研究员David Rothschild通过收集和分析赌博市场、好莱坞证券交易所、社交媒体用户发布的帖子等大量公开数据,建立预测模型,对多届奥斯卡奖项的归属进行预测。2014和2015年,均准确预测了奥斯卡共24个奖项中的21个,准确率达87.5%。
第三层,指导性分析应用,是指在前两个层次的基础上,分析不同决策将导致的后果,并对决策进行指导和优化。
如无人驾驶汽车分析高精度地图数据和海量的激光雷达、摄像头等传感器的实时感知数据,对车辆不同驾驶行为的后果进行预判,并据此指导车辆的自动驾驶。
自动驾驶有效应用面临挑战
梅宏认为,当前,在大数据应用的实践中,描述性、预测性分析应用多,决策指导性等更深层次分析应用偏少。
一般而言,人们做出决策的流程通常包括:认知现状、预测未来和选择策略这三个基本步骤。这些步骤也对应了上述大数据分析应用的三个不同类型。
不同类型的应用意味着人类和计算机在决策流程中不同的分工和协作。例如:第一层次的描述性分析中,计算机仅负责将与现状相关的信息和知识展现给人类专家,而对未来态势的判断及对最优策略的选择仍然由人类专家完成。应用层次越深,计算机承担的任务越多、越复杂,效率提升也越大,价值也越大。
然而,随着研究应用的不断深入,人们逐渐意识到前期在大数据分析应用中大放异彩的深度神经网络尚存在基础理论不完善、模型不具可解释性、鲁棒性较差等问题。
因此,虽然应用层次最深的决策指导性应用,当前已在人机博弈等非关键性领域取得较好应用效果,但是,在自动驾驶、政府决策、军事指挥、医疗健康等应用价值更高,且与人类生命、财产、发展和安全紧密关联的领域,要真正获得有效应用,仍面临一系列待解决的重大基础理论和核心技术挑战。
梅宏指出,在此之前,人们还不敢、也不能放手将更多的任务交由计算机大数据分析系统来完成。这也意味着,虽然已有很多成功的大数据应用案例,但还远未达到我们的预期,大数据应用仍处于初级阶段。
未来,随着应用领域的拓展、技术的提升、数据共享开放机制的完善,以及产业生态的成熟,具有更大潜在价值的预测性和指导性应用将是发展的重点。
工业互联网政府热、企业冷
作为人口大国和制造大国,我国数据产生能力巨大,大数据资源极为丰富。
梅宏指出,预计到2020年,我国数据总量有望达到8000EB(1018),占全球数据总量的21%,将成为名列前茅的数据资源大国和全球数据中心。
然而,我们也必须清醒地认识到我国在大数据方面仍存在一系列亟待补上的短板。
其中较为突出的是核心技术薄弱,基础理论与核心技术的落后导致我国信息技术长期存在“空心化”和“低端化”问题,大数据时代需避免此问题在新一轮发展中再次出现。
近年来,我国在大数据应用领域取得较大进展,但是基础理论、核心器件和算法、软件等层面,较之美国等技术发达国家仍明显落后。
在大数据管理、处理系统与工具方面,我国主要依赖国外开源社区的开源软件,然而,由于我国对国际开源社区的影响力较弱,导致对大数据技术生态缺乏自主可控能力,成为制约我国大数据产业发展和国际化运营的重大隐患。
梅宏建议采用“参与融入、蓄势引领”的开源推进策略,一方面鼓励我国企业积极“参与融入”国际成熟的开源社区,争取话语权;另一方面,也要在建设基于中文的开源社区方面加大投入,汇聚国内软硬件资源和开源人才,打造自主可控开源生态,在学习实践中逐渐成长壮大,伺机实现引领发展。
此外,融合应用有待深化。梅宏指出我国大数据与实体经济融合不够深入,主要问题表现在:基础设施配置不到位,数据采集难度大;缺乏有效引导与支撑,实体经济数字化转型缓慢;缺乏自主可控的数据互联共享平台等。
当前,工业互联网成为互联网发展的新领域,然而仍存在不少问题:政府热、企业冷,政府时有“项目式”、“运动式”推进,而企业由于没看到直接、快捷的好处,接受度低;设备设施的数字化率和联网率偏低;大多数大企业仍然倾向打造难以与外部系统交互数据的封闭系统,而众多中小企业数字化转型的动力和能力严重不足;国外厂商的设备在我国具有垄断地位,这些企业纷纷推出相应的工业互联网平台,抢占工业领域的大数据基础服务市场。
梅宏建议大力发展行业大数据应用。以制造业为例,麦肯锡研究报告称:制造企业在利用大数据技术后,其生产成本能够降低10%—15%。
而大数据技术对制造业的影响远非成本这一个方面。利用源于产品生命周期中市场、设计、制造、服务、再利用等各个环节数据,制造业企业可以更加精细、个性化地了解客户需求;建立更加精益化、柔性化、智能化的生产系统;创造包括销售产品、服务、价值等多样的商业模式;并实现从应激式到预防式的工业系统运转管理模式的转变。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
R 语言:数据科学与科研领域的核心工具及优势解析 一、引言 在数据驱动决策的时代,无论是科研人员验证实验假设(如前文中的 T ...
2025-09-08T 检验在假设检验中的应用与实践 一、引言 在科研数据分析、医学实验验证、经济指标对比等领域,常常需要判断 “样本间的差异是 ...
2025-09-08在商业竞争日益激烈的当下,“用数据说话” 已从企业的 “加分项” 变为 “生存必需”。然而,零散的数据分析无法持续为业务赋能 ...
2025-09-08随机森林算法的核心特点:原理、优势与应用解析 在机器学习领域,随机森林(Random Forest)作为集成学习(Ensemble Learning) ...
2025-09-05Excel 区域名定义:从基础到进阶的高效应用指南 在 Excel 数据处理中,频繁引用单元格区域(如A2:A100、B3:D20)不仅容易出错, ...
2025-09-05CDA 数据分析师:以六大分析方法构建数据驱动业务的核心能力 在数据驱动决策成为企业共识的当下,CDA(Certified Data Analyst) ...
2025-09-05SQL 日期截取:从基础方法到业务实战的全维度解析 在数据处理与业务分析中,日期数据是连接 “业务行为” 与 “时间维度” 的核 ...
2025-09-04在卷积神经网络(CNN)的发展历程中,解决 “梯度消失”“特征复用不足”“模型参数冗余” 一直是核心命题。2017 年提出的密集连 ...
2025-09-04CDA 数据分析师:驾驭数据范式,释放数据价值 在数字化转型浪潮席卷全球的当下,数据已成为企业核心生产要素。而 CDA(Certified ...
2025-09-04K-Means 聚类:无监督学习中数据分群的核心算法 在数据分析领域,当我们面对海量无标签数据(如用户行为记录、商品属性数据、图 ...
2025-09-03特征值、特征向量与主成分:数据降维背后的线性代数逻辑 在机器学习、数据分析与信号处理领域,“降维” 是破解高维数据复杂性的 ...
2025-09-03CDA 数据分析师与数据分析:解锁数据价值的关键 在数字经济高速发展的今天,数据已成为企业核心资产与社会发展的重要驱动力。无 ...
2025-09-03解析 loss.backward ():深度学习中梯度汇总与同步的自动触发核心 在深度学习模型训练流程中,loss.backward()是连接 “前向计算 ...
2025-09-02要解答 “画 K-S 图时横轴是等距还是等频” 的问题,需先明确 K-S 图的核心用途(检验样本分布与理论分布的一致性),再结合横轴 ...
2025-09-02CDA 数据分析师:助力企业破解数据需求与数据分析需求难题 在数字化浪潮席卷全球的当下,数据已成为企业核心战略资产。无论是市 ...
2025-09-02Power BI 度量值实战:基于每月收入与税金占比计算累计税金分摊金额 在企业财务分析中,税金分摊是成本核算与利润统计的核心环节 ...
2025-09-01巧用 ALTER TABLE rent ADD INDEX:租房系统数据库性能优化实践 在租房管理系统中,rent表是核心业务表之一,通常存储租赁订单信 ...
2025-09-01CDA 数据分析师:企业数字化转型的核心引擎 —— 从能力落地到价值跃迁 当数字化转型从 “选择题” 变为企业生存的 “必答题”, ...
2025-09-01数据清洗工具全景指南:从入门到进阶的实操路径 在数据驱动决策的链条中,“数据清洗” 是决定后续分析与建模有效性的 “第一道 ...
2025-08-29机器学习中的参数优化:以预测结果为核心的闭环调优路径 在机器学习模型落地中,“参数” 是连接 “数据” 与 “预测结果” 的关 ...
2025-08-29