京公网安备 11010802034615号
经营许可证编号:京B2-20210330
大数据爆发可能性:基础要件已经具备 从数据源到数据应用形成完整生态
国内大数据市场爆发的核心要件已经具备。 基于对影响产业发展的核心因素的分析, 立足当前时点, 我们判断国内大数据产业已经具备规模爆发的可能性:在线数据爆发式增长,数据源可获得性、流动性明显改善;云计算、分布式架构等技术推动大数据相关基础技术设施趋于完善; 大数据分析应用领域明星案例不断增多, 市场对于大数据价值认可度持续提升;国家宏观政策、资本市场热情为大数据产业的发展提供强劲支撑。
全球大数据市场发展路径为国内市场提供良好的参考。 据 Wikibon 数据,全球大数据市场规模在 2015 年突破 400 亿美元,产业发展初具规模,同时全球市场发展具有如下典型特征:
( 1 )形成多层次、 融合的大数据来源,包括企业内数据、商业数据以及独立第三方机构数据源。
( 2)基础软件模块整体空间有限,市场收入主体主要由数据分析服务和基础硬件模块构成,开源工具引入使得软件模块整体空间非常有限。
( 3)技术、行业认知驱动新兴数据分析企业崛起,以 palantir、 splunk 为代表的企业依托突出的技术,以及对特定行业的深刻认知,迅速打破传统 IT 企业的壁垒,并在特定细分行业领域占据主导地位。
数据源:数据规模爆发式增长,数据可获得性、流动性持续改善。 根据 IDC 数据, 2011年全球数据总量约为 1.82ZB,是 2008 年的近 4 倍,中投顾问预计 2020 年国内数据总量将达到 38.59ZB,远超过目前的全球数据总量,数据量正呈现爆发式增长。从数据的可获得性、流动性来看,互联网的发展创造了大量的线上数据,同时互联网和传统行业的融合,以及 IOT时代的到来,数据的可获得途径正在被持续拓宽,互联网加速数据间的流动和融合。




基础技术:计算、存储、分析技术不断成熟。 在传统的数据分析时代,数据首先通过ORACLE、 DB2 等数据库集中存储形成结构化数据,并通过 BI 工具,借助传统的数据挖掘算法进行分析和展现。进入大数据时代,我们面临数据量大、 结构化数据占比低等突出问题,传统的 IT 架构、分析算法已经难以满足需求。 2003~2004 年间, Google 公司在其对外发表的两篇论文中提出了 GFS( Google File System)、 MapReduce 两个核心概念,奠定了分布式文件存储系统以及分布式计算模型的理论基础, 2006 年分布式计算和存储框架 hadoop项目被提出,后续围绕 hadoop 的技术生态不断发展, 大数据相关计算、存储、分析技术不断成熟和完善。



分析应用:大数据的价值正在获得持续认可。 伴随着企业和机构对大数据重视度的提升,大数据的商业价值正在逐步显现,各行业积极探索和大数据相结合的应用场景,例如 Palantir在协助美国政府进行反恐、国土安全等领域的突出表现,国内互联网公司借助大数据进行的精准广告投放等。根据德克萨斯州大学学者的研究统计, 如果企业数据使用率提高 10%,各行业效益将提升 17%-49%不等。

政策&资本:政府大力推进,资本热情持续高涨。 近一年来,中央政府强力推动数据开放和大数据运用, 国务院常务会议 10 次提及“互联网+” 及大数据战略, 强调提高数据的开放程度和搭建数据共享平台。基于对市场前景的一致预期,国内大数据行业投资热度不断上升,仅 2015 年在国内融资的大数据创业公司就有超过 50 家,企业获得投资额预计超过 20亿美元,较 2014 年大幅增加。

大数据业务成功运作依赖于多个环节的共同参与和协调,我们将大数据产业链分成如下环节:上游的数据源,中间的数据存储、 计算,以及下游的数据分析应用。 纵观全球市场,根据 wikibon 统计数据,到 201 7 年,全球大数据市场规模将突破 500 亿美元,美国、西欧等传统 IT 发达地区目前已经走在前列,在下文中,我们将通过对全球大数据市场的回顾和分析,以试图探究全球大数据产业发展的内在逻辑以及对中国市场的有益借鉴。
产业全景:贯穿大数据全生命周期。 经历近 20 年的理论准备和产业发展, 目前全球市场已经形成了从数据源采集、数据处理到数据分析应用的完整产业生态:
数据源。 数据类型上,包括传统数据库存储的结构型数据以及 cloudera 等存储的半结构化、 非结构化数据,数据的来源上,包括销售、营销等企业内和商业数据,也包括从事数据整合的第三方机构和组织所贡献的数据。
数据处理。 主要包括数据的 ETL(抽取、转化、加载)、存储、计算等过程,涉及数据的切割、融合等动作,大量的中小企业通过推出特定的插件模块、基础工具不断推动整个技术生态的繁荣。
数据应用。 在该领域既包括传统的 IT 信息企业、 统计分析企业,也包括新兴的大数据公司,比如 palantir、 inrix 等,这些企业针对不同的行业、应用场景纷纷推出相应的大数据解决方案。
产业模块:专业服务模块表现最为优异 。如果我们将大数据的产业收入来源简单分类为基础硬件、 基础软件和专业服务三个模块,根据 wikibon 统计数据, 基础硬件模块、专业服务的市场表现明显优于基础软件模块:
基础硬件。 计算、存储两个子模块显示出强劲的增长动力,且整体份额占比极高,显示出云计算和大数据两个子产业较强的相互拉动作用。
基础软件。 主要由 hadoop 计算框架和数据管理两个子模块构成,整体规模非常有限,且增长平缓, 整个数据管理模块的收入包括传统的数据软件产品收入( ORACLE、DB2 等)和 NoSQL 商业化产品收入。
专业服务。 为增长最为快速、 份额占比最高的子模块,整体持续保持高速增长。
Wikibon 统计了 2013 年全球大数据领域收入排名 TOP 30 的公司,其中不仅包括 IBM、 HP 等传统综合 IT 企业,也包括 palantir、 inrix 等专注于特定领域数据分析的新兴企业,我们尝试对该 30 家公司进行归类分析,并探索各类别企业背后的一些共性的因素。
传统 IT 企业。 以 IBM、 HP、 dell、 oracle 等企业为代表,该类企业具有完整的软、硬件产品线,并通过既有产品线、 hadoop 等开源计算框架的融合,迅速构建出综合性大数据解决方案。
传统互联网企业。 以 google、 amazon 为代表, 本身具有雄厚的技术和资金支持,且数据源丰富,自身业务对大数据具有较强的需求。
传统咨询公司。 以埃森哲、 BCG 等传统咨询公司为代表,作为咨询业务的延伸,依赖于对行业的理解,面向企业输出大数据实施方案以及承担相应的数据分析职能等。
新兴大数据企业。 以 palantir、 splunk 等为代表,依赖于融合的计算框架和强大的技术实力,并叠加对特定行业的深入理解, 提供相应的数据分析服务,典型的技术、行业认知驱动。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在Power BI数据可视化分析中,切片器是连接用户与数据的核心交互工具,其核心价值在于帮助使用者快速筛选目标数据、聚焦分析重点 ...
2026-04-23以数为据,以析促优——数据分析结果指导临床技术改进的实践路径 临床技术是医疗服务的核心载体,其水平直接决定患者诊疗效果、 ...
2026-04-23很多数据分析师每天盯着GMV、DAU、转化率,但当被问到“哪些指标是所有企业都需要的”“哪些指标是因行业而异的”“北极星指标和 ...
2026-04-23近日,由 CDA 数据科学研究院重磅发布的《2026 全球数智化人才指数报告》,被中国教育科学研究院官方账号正式收录, ...
2026-04-22在数字化时代,客户每一次点击、浏览、下单、咨询等行为,都在传递其潜在需求与决策倾向——这些按时间顺序串联的行为轨迹,构成 ...
2026-04-22数据是数据分析、建模与业务决策的核心基石,而“数据清洗”作为数据预处理的核心环节,是打通数据从“原始杂乱”到“干净可用” ...
2026-04-22 很多数据分析师每天盯着GMV、转化率、DAU等数字看,但当被问到“什么是指标”“指标和维度有什么区别”“如何搭建一套完整的 ...
2026-04-22在数据分析与业务决策中,数据并非静止不变的数值,而是始终处于动态波动之中——股市收盘价的每日涨跌、企业月度销售额的起伏、 ...
2026-04-21在数据分析领域,当研究涉及多个自变量与多个因变量之间的复杂关联时,多变量一般线性分析(Multivariate General Linear Analys ...
2026-04-21很多数据分析师精通描述性统计,能熟练计算均值、中位数、标准差,但当被问到“用500个样本如何推断10万用户的真实满意度”“这 ...
2026-04-21在数据处理与分析的全流程中,日期数据是贯穿业务场景的核心维度之一——无论是业务报表统计、用户行为追踪,还是风控规则落地、 ...
2026-04-20在机器学习建模全流程中,特征工程是连接原始数据与模型效果的关键环节,而特征重要性分析则是特征工程的“灵魂”——它不仅能帮 ...
2026-04-20很多数据分析师沉迷于复杂的机器学习算法,却忽略了数据分析最基础也最核心的能力——描述性统计。事实上,80%的商业分析问题, ...
2026-04-20在数字化时代,数据已成为企业决策的核心驱动力,数据分析与数据挖掘作为解锁数据价值的关键手段,广泛应用于互联网、金融、医疗 ...
2026-04-17在数据处理、后端开发、报表生成与自动化脚本中,将 SQL 查询结果转换为字符串是一项高频且实用的操作。无论是拼接多行数据为逗 ...
2026-04-17面对一份上万行的销售明细表,要快速回答“哪个地区卖得最好”“哪款产品增长最快”“不同客户类型的购买力如何”——这些看似复 ...
2026-04-17数据分析师一天的工作,80% 的时间围绕表格结构数据展开。从一张销售明细表到一份完整的分析报告,表格结构数据贯穿始终。但你真 ...
2026-04-16在机器学习无监督学习领域,Kmeans聚类因其原理简洁、计算高效、可扩展性强的优势,成为数据聚类任务中的主流算法,广泛应用于用 ...
2026-04-16在机器学习建模实践中,特征工程是决定模型性能的核心环节之一。面对高维数据集,冗余特征、无关特征不仅会增加模型训练成本、延 ...
2026-04-16在数字化时代,用户是产品的核心资产,用户运营的本质的是通过科学的指标监测、分析与优化,实现“拉新、促活、留存、转化、复购 ...
2026-04-15