
大数据预言
大数据改变了管中窥豹时代的混沌和蒙昧,以及面对未知风险的脆弱和无助
大数据时代之前,面对碎片化的数据,人们容易以偏概全,如同只能依赖触觉感知大象的盲人,对现象做出有偏差的判断。而大数据则可以让人们去认识事物,以PB为量级的统计链条将分散的小数据拼接起来,同时把决定事物性状的、反应规律的、决定走向的点找出来,呈现出一个更加接近本质的全景图。
这幅诱人的全景图不仅意味着对知识的梳理和对过去的传承变得更加容易,而且极大减少了未来的不确定性。在大数据打造的“负熵化”世界里,人类将对未知世界带来的挑战进行充分准备。
“大数据可以帮我们更加准确的定位未来,决策的质量可以提高。”中国人民大学信息资源管理学院院长赵国俊在接受《中国经济和信息化》记者采访时表示,“预知未来已不再依赖占卜和巫术,而是一种科学。”
大数据打假
大数据打破了人们对统计数字的迷信。
传统意义上,中国社会一直缺乏数字管理的精神,过去对上级负责的评价体系导致政府和企业有时候会根据目标调整“统计数字”。这一尴尬局面有望被打破。
广东省大数据委员会成员、《大数据》一书的作者涂子沛在接受《中国经济和信息化》记者采访时表示,大数据时代绝不是大数字时代,人们会从非直接相关数据中解读出有效信息。“数据是事实,是记录,而不是拍脑门、生捏出来的统计数字。”他强调,大数据可以让假信息无处可遁。
在炒房热浪屡抑不止的今天,空房率成为判断购房行为是否满足刚性需求的标准。对于房地产企业公布的数字心存质疑的老百姓有了新的检验标准——通过难以伪造或疏于伪造的小区用电用水量判断空房率。与此有异曲同工之妙的是在技术水平没有突破的情况下,通过用电量对部分好大喜功、追求政绩地区公布的产值或GDP进行检验。
这一思路并不新鲜。早在2007年,时任辽宁省委书记的李克强对来访的美国驻华大使表示,他更喜欢通过三个指标来追踪辽宁的经济动向:全省铁路货运量、用电量和银行已放贷款量,以挤掉统计数字的水分。英国杂志《经济学人》在2010年把这种思路称为“克强指数”。
非直接相关数据的利用正体现了大数据的一个主要特点:多源头的信息形成系统的数据库,互相印证,从而剥离一定的假数据。我国各级部门的信息平台相对独立,除非特大或焦点事件,否则各种信息重叠和信息矛盾现象严重。
这一点为企业“投机”提供了机会。假设累进税制规定以5000个杯子为界,月销售量在5000个之下的企业缴纳所得税的税率为3.5%,而5000个之上为4%。企业在向国税局申报时,为了企业经济利益,可能上报销售量为4900个。
与此同时,地方政府为了扶持地方产业,塑造龙头企业形象,经常出台鼓励政策,对销售量大、盈利能力高的企业给予奖励和政策倾斜。这时,企业可能会申报销售量为1.2万个。
在寻租成本较低、监督审查制度不完善的机制下,双重标准下的双重数字使得企业往往关注短利,缺乏长线经营、长效发展的战略眼光,也造成了产业升级迟缓低效。而大数据要求在更大背景下、更大平台上共享信息,这种利用A数据来发现或修正B数据的清洗功能将放大企业说假话的成本。
大数据洗牌
大数据让中国期待“弯道超越”的机会,创造中国IT企业从在红海领域苦苦挣扎转向在蓝海领域奋起直追的战略机遇。
传统IT行业对于底层设备、基础技术的要求非常高,企业在起点落后的情况下始终疲于追赶。每当企业在耗费大量人力、物力、财力取得技术突破时,IT革命早已将核心设备或元件推进至下一阶段。
这种一步落后、处处受制于人的状态在大数据时代有望得到改变。大数据对于硬件基础设施的要求相对较低,不会受困于基础设备核心元件的相对落后。与在传统数据库操作层面的技术差距相比,大数据分析应用的中外技术差距要小得多。而且,美国等传统IT强国的大数据战略也都处于摸着石头过河的试错阶段。
中国市场的规模之大也为这一产业发展提供了大空间、大平台。阿里巴巴[微博]积累了超过1000万亿的单表记录,这样的数据规模在世界范围内都是罕见的。进入大数据时代之前,传统信息产业99%的核心产品可能是国外的,国内产品只有1%~2%,中国企业基本上没有话语权。大数据时代则给了中国企业更多机遇。
我国的优势还体现在中国传统文化和思维角度上。注重宏观把握全局的大意识与大数据的精神本质相符。赵国俊认为,此时如果中国重视大数据,加速推进这一战略在中国政策和实践上落地,就有可能实现相对加速,从而在大数据时代的IT格局里争取话语权,实现信息产业领域的弯道超越。
“炒作概念甚至不是一件坏事儿。”涂子沛表示,“如果可以带动大数据概念的普及,提升中国人的数据管理理念,就是好事。”中国独特的体制允许我们在其他国家不可能想象的尺度上办大事、办好事,让政府、企业界、学术界、投资界齐心协力推动这次可能深刻改变社会和经济的变革。
大数据产业的发展格局在信息化社会背景下,影响尤为深远。与物质资源相比,大数据突破了物理界限,可以共享共用。随着国民经济和社会发展对信息的依赖性日益增强,较量的是谁更会从大数据中发现战略价值。对这一资源的占有意识和利用率越高就意味着对该资源的控制能力越强,而控制话语权的国家可以制定规则。
“规则是取代战争、形成国际秩序的新办法。”涂子沛认为。先来者主导的国际规则决定了国际秩序和世界格局,后来者必须承认。这种对先发优势的认可和遵守形成了稳定有序、互相推进的世界格局。
大数据战略
在新的挑战面前,中国的政府官员、专家和学者都在呼吁政府形成这样一种意识:数据是一种战略资源,作为鸡肋或负担扔给外国企业去处理、分析的时代应该一去不复返。
大数据产业
中国大数据产业要形成自主完整的链条。
这一产业远未成熟,目前国内大数据经济生产往往是粗放型的,还没有到精细化的程度。在大数据开创的蓝海领域里,技术或数据积累拥有相对优势的商家不需要长远规划精准定位就可以赚钱。然而,如果注重数据质量,对分散在企业生产经营流程各个环节的基础数据进行清洗,反而会延长见利周期。这就造成了国内数据分析公司遍地开花,但普遍浮躁,疏于思考如何更高效利用数据进行精细化分析。
渴望长寿、关注社会声誉的旗舰企业更容易从这种短视逐利行为误区中走出。赵国俊认为,拥有大数据资源积累的大企业应当通过不断兼并有核心能力的中小企业,把众多小帆船组合成铁壳船,并且进一步做大为航空母舰级别的企业。大数据的价值在于通过整合达到1+1>2的效果。
涂子沛提出中国的大数据产业链尚不完整。大数据处理的基础设施数据仓库、以物联网为代表的数据收集环节、实时性强的在线数据分析工具,以及数据可视化的产品呈现,中国都缺乏具有核心竞争力的产品。而阿里巴巴这类大公司应当承担核心角色。
对于国内在大数据产业有优势的公司,涂子沛建议要注意三个问题。首先,收集数据时科学规划。有的放矢的收集数据可以避免关键数据没有收集到位的尴尬,保证数据质量。其次,企业内部应当建立统一、高质量的数据治理框架。最后,首席数据官或数据治理委员会必须有绝对权威,因为数据整合涉及各部门职能和商业流程的整合。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
R 语言:数据科学与科研领域的核心工具及优势解析 一、引言 在数据驱动决策的时代,无论是科研人员验证实验假设(如前文中的 T ...
2025-09-08T 检验在假设检验中的应用与实践 一、引言 在科研数据分析、医学实验验证、经济指标对比等领域,常常需要判断 “样本间的差异是 ...
2025-09-08在商业竞争日益激烈的当下,“用数据说话” 已从企业的 “加分项” 变为 “生存必需”。然而,零散的数据分析无法持续为业务赋能 ...
2025-09-08随机森林算法的核心特点:原理、优势与应用解析 在机器学习领域,随机森林(Random Forest)作为集成学习(Ensemble Learning) ...
2025-09-05Excel 区域名定义:从基础到进阶的高效应用指南 在 Excel 数据处理中,频繁引用单元格区域(如A2:A100、B3:D20)不仅容易出错, ...
2025-09-05CDA 数据分析师:以六大分析方法构建数据驱动业务的核心能力 在数据驱动决策成为企业共识的当下,CDA(Certified Data Analyst) ...
2025-09-05SQL 日期截取:从基础方法到业务实战的全维度解析 在数据处理与业务分析中,日期数据是连接 “业务行为” 与 “时间维度” 的核 ...
2025-09-04在卷积神经网络(CNN)的发展历程中,解决 “梯度消失”“特征复用不足”“模型参数冗余” 一直是核心命题。2017 年提出的密集连 ...
2025-09-04CDA 数据分析师:驾驭数据范式,释放数据价值 在数字化转型浪潮席卷全球的当下,数据已成为企业核心生产要素。而 CDA(Certified ...
2025-09-04K-Means 聚类:无监督学习中数据分群的核心算法 在数据分析领域,当我们面对海量无标签数据(如用户行为记录、商品属性数据、图 ...
2025-09-03特征值、特征向量与主成分:数据降维背后的线性代数逻辑 在机器学习、数据分析与信号处理领域,“降维” 是破解高维数据复杂性的 ...
2025-09-03CDA 数据分析师与数据分析:解锁数据价值的关键 在数字经济高速发展的今天,数据已成为企业核心资产与社会发展的重要驱动力。无 ...
2025-09-03解析 loss.backward ():深度学习中梯度汇总与同步的自动触发核心 在深度学习模型训练流程中,loss.backward()是连接 “前向计算 ...
2025-09-02要解答 “画 K-S 图时横轴是等距还是等频” 的问题,需先明确 K-S 图的核心用途(检验样本分布与理论分布的一致性),再结合横轴 ...
2025-09-02CDA 数据分析师:助力企业破解数据需求与数据分析需求难题 在数字化浪潮席卷全球的当下,数据已成为企业核心战略资产。无论是市 ...
2025-09-02Power BI 度量值实战:基于每月收入与税金占比计算累计税金分摊金额 在企业财务分析中,税金分摊是成本核算与利润统计的核心环节 ...
2025-09-01巧用 ALTER TABLE rent ADD INDEX:租房系统数据库性能优化实践 在租房管理系统中,rent表是核心业务表之一,通常存储租赁订单信 ...
2025-09-01CDA 数据分析师:企业数字化转型的核心引擎 —— 从能力落地到价值跃迁 当数字化转型从 “选择题” 变为企业生存的 “必答题”, ...
2025-09-01数据清洗工具全景指南:从入门到进阶的实操路径 在数据驱动决策的链条中,“数据清洗” 是决定后续分析与建模有效性的 “第一道 ...
2025-08-29机器学习中的参数优化:以预测结果为核心的闭环调优路径 在机器学习模型落地中,“参数” 是连接 “数据” 与 “预测结果” 的关 ...
2025-08-29