
处理好这十大关系,再说有序推进我国大数据事业
我们对大数据的认识可以划分为几个层次:宏观层面,大数据是“战略资源”;中观层面,大数据是“产业”;微观层面,大数据是“经济资产”。同时,大数据也是“科学”和“技术”。
英美大数据发展六阶段
回顾英美大数据发展历程,至少已经经历了六大阶段:(1)早期萌芽阶段。从上世纪90年代开始到本世纪初,是大数据发展的萌芽阶段,主要体现为数据挖掘和处理技术的日渐成熟,代表性事件则是“啤酒和尿布”关联销售案例的出现。(2)应用驱动的探索阶段。从本世纪初到2006年,是大数据的应用探索阶段,少数领先的科技巨头公司例如美国的亚马逊、谷歌公司等已经基于自身业务特点,逐步探索大数据应用,研发大数据技术,实现商业变现和增值。此阶段的标志性事件是谷歌发布了分布式文件系统Google File System、分布式处理框架MapReduce和非结构化数据库BigTable三驾马车,奠定了大数据应用的基石。(3)技术传播和爆发阶段。2006年,在现任Apache软件基金会主席Doug Cutting的主导下,开源大数据软件的代表Hadoop横空出世,并且逐渐取得了工业届、学术界、大数据社区的认可,成为大数据届的事实标准。(4)社会传播和大众认知阶段。从2008年开始,在鼓吹者的推波助澜之下,大数据逐渐走入大众视野,进入了广泛的社会传播阶段。其标志性事件是Nature杂志刊发了大数据专刊,标志着大数据从技术领域逐渐进入公众领域,大数据理念开始在公众中传播。(5)政府开放数据阶段。2009年,美国政府建立了统一开放数据网站Data.gov,英国也着手开始打造数据公开系统,宣布大数据进入政府开放数据阶段。(6)大数据产业走向成熟阶段。在经历了上述几个发展阶段后,英美大数据产业逐渐走向成熟,标志性事件是杀手级大数据应用和处于统治地位的大型企业出现,例如美国的Palantir。
我国政务大数据建设和政府数据开放
有序推进我国大数据事业,以及政务大数据建设和政府数据公开,需要正确认识并处理好以下十大关系:
(一)对政府数据开放的认识:
政府数据的开放涉及多个层面:一是政府的数据应该可以通过在线、或者公开且容易获取的渠道访问及下载,数据的格式应该尽量接近标准格式;二是政府所开放的数据应该允许获取者的加工、利用和再传播;三是对于不涉及国家安全的数据应尽量向全体公众开放,对于敏感数据可配套数据分级管理制度;四是开放的数据应该是明细数据,并且尽量遵循完整性原则。
(二)政府在数据开放当中扮演的角色:主导方和受益方
政府作为数据的采集、拥有、管理者,在数据开放当中既作为数据的提供方,同时又应成为数据的消费者。政府作为数据开放平台的主导方,往往需要承担数据开放所带来的成本增加。但是,其实政府也是数据开放的受益方。例如,上级政府可以通过监控下级政府所开放的数据估算某一个指标,从而与下级所上报的指标进行对比,发现异常。政府通过开放数据,在公共服务方面,可以吸引更多的人参与探索甚至是试错,在经济方面,以数据开放形成的杠杆效应培育大数据产业。
(三)政府数据开放的路径:加强数据目录和元数据建设
在开放数据的过程中,各国政府通常都会建立相关的配套制度,各部门明确需要梳理和开放的数据资产,根据各类数据的属性,建立方便公众获取数据的途径,例如形成数据开放目录,通过建立层次化的目录结构,配合搜索、关联推荐等常用互联网大数据功能,降低浏览和定位数据的难度,也避免了低端建设数据开放信息化网站的困境。同时,需要加强元数据的建设,尽量完整的描述采集方式、数据质量、用户描述、口径指标、甚至是血缘关系等元数据。在数据开放的优先级方面,可以通过多种考量维度设置开放的优先级,例如数据集的信息化程度和完整程度,同时参照美国等国的社会需求优先级导向方式。
(四)大数据与统筹设计的关系:
习近平指出,随着互联网特别是移动互联网发展,社会治理模式正在从单向管理转向双向互动,从线下转向线上线下融合,从单纯的政府监管向更加注重社会协同治理转变。要以数据集中和共享为途径,建设全国一体化的国家大数据中心,推进技术融合、业务融合、数据融合,实现跨层级、跨地域、跨系统、跨部门、跨业务的协同管理和服务。
(五)大数据与价值的关系:
无论大数据的特征包含几个V,大数据最为根本的着眼点在于通过高效的存储、管理、分析、使用数据,产生巨大的价值。目前而言,产生价值最为显著也最为迫切的应用集中在两个领域,一是企业界通过数据实现变现和增值;二是社会和政府通过数据解决问题、提升整体效率。
在数据价值落地方面,仍然存在着很多问题,例如:有的机构不掌握数据,对于大数据感觉无从下手,不知道如何收集数据、应该收集哪些数据;有的机构掌握着数据,也愿意开展大数据应用,但是感觉无从下手;有的机构是手握“数据富矿”找数据,找不到具体的应用场景;有的机构应用了大数据,但是由于运用不合理的方式方法,结果大打折扣。上述问题主要是对大数据应用的价值点不清晰以及对于实现价值的路径不清晰。
(六)大数据与共享的关系:
大数据时代,数据成为资产,创造数据价值的过程其实就好比水的流动。水通过流动就能产生动力,大数据通过流动才能产生价值。滴水难以形成力量,很多水汇集成江河湖海就能形成汹涌澎湃的力量,在大数据时代,数据的关联、交叉、汇聚、共享才能催生业务价值。
(七)大数据与创新的关系:
科学技术的发展已经进入了第四范式阶段,即由数据驱动的创新阶段。在自然科学领域,科学家们正在尝试利用数据驱动科学理论的发展。在社会科学领域,如何通过数据驱动从而实现科学决策、优化政府治理、配置经济和社会资源,利用大数据助力双创工作的开展,也是值得探讨的问题。可以预见,数据范式未来会在社会科学领域发挥重大价值,因为通过宏观大尺度的观察和细节数据的收集处理以及类比分析,就可能模拟、预判政策的执行效果或者精准的感知社会态势。
(八)大数据与人才培养的关系:
大数据最终为人创造价值,也依赖于人实施、产生、创造数据的价值,因此,大数据应当以人为本。想要真正运用好大数据,需要培养懂得业务的大数据人才。如果不懂得业务,就无法准确提炼、定位、搜寻到大数据潜在的应用价值点。如果一线业务人员能够像使用WORD、Excel等办公软件一样轻松自如的应用一些大数据的工具和成果,那么大数据创新就会不断涌现,真正的大数据价值时代就会来临。
(九)大数据与模型的关系:
目前阶段,模型是连接数据和业务价值之间的桥梁,数据通过模型转化为结论,进而指导下一步的行动。最近一段时间,我国各地方政府、社会机构组织了大量的大数据比赛和开放数据大赛,一方面促进了数据开放和流动,另外一方面吸引了更多的社会力量参与数据创新。虽然比赛办得风风光光,但是比赛过后,由于知识产权的问题,一般的模型是不公开的,造成了很多优秀的成果无法传播和扩大影响,比较可惜。在这方面,可以增强探索,例如参照美国数据竞赛网站Kaggle的模式,通过激烈性竞赛,将最好的模型设计原理公开,从而加速模型和知识的扩散和传播。
(十)大数据与安全和隐私保护的关系:
从棱镜门事件到我国出现的诈骗案,信息泄露给社会造成了难以弥补的损失。从技术角度讲,有了大数据之后,信息安全的挑战更大了。同时,大数据也带来了隐私保护的问题。大数据隐私泄露可能发生在多个环节:一是组合信息泄露问题,例如单个信息不造成泄露,但是将网络中的多个信息碎片组合起来就有可能泄露隐私信息;二就是流程泄露问题,数据在存储、传输和处理过程中会造成泄密;三是基础设施造成信息泄露,目前用来存储大数据的基础设施本身有很多安全问题,例如由于历史原因,国内大部分政府、银行、能源机构的数据库软件和服务器仍然采用国外的产品,这对存储于其上的数据构成了泄露的风险;四是针对大数据的APT攻击,敏感大数据更容易成为攻击目标。五是第三方导致的泄露,第三方平台掌握大量大数据,会产生滥用和误用的风险,导致信息泄露。其他类型的安全隐患包括:非授权访问、传输过程中破坏数据完整性、拒绝服务攻击、网络病毒等。
在隐私保护方面,英美很多机构都设置了隐私保护专家,并且都提出了全生命周期数据隐私保护的概念,即在数据从生产到加工、传播的每个环节,都加入了隐私保护的评估和机制保证,而不只是在最后开放的环节才考虑隐私的问题。当前,数据脱敏和匿名化也面临着一些挑战,例如有专门针对数据匿名化的反匿名化技术;根据披露的邮编、年龄范围和搜索关键词就能定位到具体的人;通过用户观看的多部电影名称和大致时间范围定位到用户。
未来展望
数据开放和数据创新最终离不开数据价值体现,也离不开生态系统的支撑。通过构建数据融合、开放、共享、共创的机制,打通“政产学研用金介贸媒”的开放数据体系,通过社会态势感知、沟通渠道顺畅、政策影响评估等典型应用,建立一套用数据说话、用数据决策、用数据管理、用数据创新的管理机制,提高政府的决策、治理、服务、监督、风险防范等综合水平,实现公共利益的最大化,通过数据流引领技术流、物质流、信息流、资金流、人才流形成合力。
当前,只有深刻、清醒的认识大数据存在的各种困难和挑战,坚持从实际出发,立足于大数据的发展趋势和中国发展变化的实际情况,敢于创新,走自主特色的道路,积极探索,才能深入推进我国大数据国家战略的伟大事业,助力实现中华民族伟大复兴的“中国梦”。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
用 Power BI 制作地图热力图:基于经纬度数据的实践指南 在数据可视化领域,地图热力图凭借直观呈现地理数据分布密度的优势,成 ...
2025-07-24解析 insert into select 是否会锁表:原理、场景与应对策略 在数据库操作中,insert into select 是一种常用的批量数据插入语句 ...
2025-07-24CDA 数据分析师的工作范围解析 在数字化时代的浪潮下,数据已成为企业发展的核心资产之一。CDA(Certified Data Analyst)数据分 ...
2025-07-24从 CDA LEVEL II 考试题型看 Python 数据分析要点 在数据科学领域蓬勃发展的当下,CDA(Certified Data Analyst)认证成为众多从 ...
2025-07-23用 Python 开启数据分析之旅:从基础到实践的完整指南 在数据驱动决策的时代,数据分析已成为各行业不可或缺的核心能力。而 Pyt ...
2025-07-23鸢尾花判别分析:机器学习中的经典实践案例 在机器学习的世界里,有一个经典的数据集如同引路明灯,为无数初学者打开了模式识别 ...
2025-07-23解析 response.text 与 response.content 的核心区别 在网络数据请求与处理的场景中,开发者经常需要从服务器返回的响应中提取数 ...
2025-07-22解析神经网络中 Softmax 函数的核心作用 在神经网络的发展历程中,激活函数扮演着至关重要的角色,它们为网络赋予了非线性能力, ...
2025-07-22CDA数据分析师证书考取全攻略 一、了解 CDA 数据分析师认证 CDA 数据分析师认证是一套科学化、专业化、国际化的人才考核标准, ...
2025-07-22左偏态分布转正态分布:方法、原理与实践 左偏态分布转正态分布:方法、原理与实践 在统计分析、数据建模和科学研究中,正态分 ...
2025-07-22你是不是也经常刷到别人涨粉百万、带货千万,心里痒痒的,想着“我也试试”,结果三个月过去,粉丝不到1000,播放量惨不忍睹? ...
2025-07-21我是陈辉,一个创业十多年的企业主,前半段人生和“文字”紧紧绑在一起。从广告公司文案到品牌策划,再到自己开策划机构,我靠 ...
2025-07-21CDA 数据分析师的职业生涯规划:从入门到卓越的成长之路 在数字经济蓬勃发展的当下,数据已成为企业核心竞争力的重要来源,而 CD ...
2025-07-21MySQL执行计划中rows的计算逻辑:从原理到实践 MySQL 执行计划中 rows 的计算逻辑:从原理到实践 在 MySQL 数据库的查询优化中 ...
2025-07-21在AI渗透率超85%的2025年,企业生存之战就是数据之战,CDA认证已成为决定企业存续的生死线!据麦肯锡全球研究院数据显示,AI驱 ...
2025-07-2035岁焦虑像一把高悬的利刃,裁员潮、晋升无望、技能过时……当职场中年危机与数字化浪潮正面交锋,你是否发现: 简历投了10 ...
2025-07-20CDA 数据分析师报考条件详解与准备指南 在数据驱动决策的时代浪潮下,CDA 数据分析师认证愈发受到瞩目,成为众多有志投身数 ...
2025-07-18刚入职场或是在职场正面临岗位替代、技能更新、人机协作等焦虑的打工人,想要找到一条破解职场焦虑和升职瓶颈的系统化学习提升 ...
2025-07-182025被称为“AI元年”,而AI,与数据密不可分。网易公司创始人丁磊在《AI思维:从数据中创造价值的炼金术 ...
2025-07-18CDA 数据分析师:数据时代的价值挖掘者 在大数据席卷全球的今天,数据已成为企业核心竞争力的重要组成部分。从海量数据中提取有 ...
2025-07-18