京公网安备 11010802034615号
经营许可证编号:京B2-20210330
中国大数据产业痛并快乐着
大数据作为一个新兴的产业,一直在处于舆论的风口浪尖。就像互联网+的概念一样,大数据被神话了,被送上了“宗教”的神坛。大数据企业总是有一个担心,生怕大数据被捧得的太高,将来可能会被摔的很惨。
2015年中国大数据产业的热度从贵阳大数据交易所开始,到9月国务院的2015第50号文《促进大数据发展行动纲要》进入高峰,相信10月份的乌镇互联网大会上,大数据还会是一个大的热点。
大数据论坛上,数据产品和解决方案被介绍的很多。数据给企业带来的具体价值、数据应用场景、大数据产业的痛点介绍的很少。中国大数据产业经历着很多痛苦,大数据产业前景很好,但是大数据企业却很难做大,很难实现质的飞跃。中国大数据产业的痛点和困难如下。
1 大数据企业众多而弱小,很难实现产业优势
中国大数据企业大概有200多家,将近60%集中在北京,以小微企业为主,年销售额达到十亿人民币的企业几乎没有。大数据产业处于春秋时代早期,各家诸侯割地而立,每家占领了一块小的细分领域,很难做大,都面临着同行的激烈竞争,有的领域例如舆情监控已成为红海。
大数据企业人数大多在几十人到几百人,少有千人以上的企业。没有一家大数据企业可以统领一个行业,没有一家企业占有细分市场10%的份额,没有一家大数据企业建立了行业标准,领导行业发展。
中国大数据产业处于极度分散状态,优秀的人才分布在不同企业,很难形成人才合力。各家企业规模小,很难在企业做深做大,很难利用大数据帮助企业实现业务提升。大多数企业的工具和数据很难满足企业整体的数据要求,中国的数据挖掘和分析产品也很难和国外的产品进行竞争。
大数据产业如果要形成产业优势,必须需要一批领军企业。参考国外大数据产业,中国在大数据基础架构,数据产品,数据工具、数据清洗和数据挖掘、数据分析、数据人才都需要产生一批标杆企业。每个领军企业都规模应该在千人以上,销售额应该在百亿以上,否则很难形成技术和人才优势,也很难利用大数据帮助客户实现业务提升。
贵阳大数据交易所《2015年中国大数据交易白皮书》提到2014年中国大数据市场规模为767亿元。这个数字看上去不错,估计其实真正和大数据工具和大数据产品相关的不足20%(业务价值提升)。大多数的经费都用于大数据基础平台(存储和计算)、咨询、报告等和业务价值提升相关度不大的领域。中国大数据市场销售额大多数集中在传统的IT企业例如IBM,Oracle,EMC,Intel,华为,联想等。真正大数据企业所有市场份额加起来可能就在百亿元左右。
中国大数据企业规模过小,领军企业缺少,行业过于分散,这些都是制约中国大数据产业发展的因素,也是产业做大的一个痛点。
2 外部数据是一个个孤岛,数据价值低
数据是大数据产业发展的基础,具有商业价值的数据可以帮助企业洞察客户、数字化运营、风险管控、精准营销、预测和决策等。具有商业价值的数据和商业分析真正能够帮助企业提升业务,创造出新的价值。
中国的大数据市场还不成熟,很多大数据企业拥的数据都是片段的数据,很难形成完整的,具有商业价值的数据。大数据市场的数据质量和企业的数据需求有较大的差距。外部数据大多处于孤岛状态,数据之间很少流动和整合;孤立、不流动、没有整合的数据很难帮到企业,很多需要数据的企业不得不从多个大数据企业采购数据,效率很低,采购来的数据价值不高,数据整合的难度较大,数据采购的整体费用过高。
大家都看到了数据分散的弊端,于是很多地方都建立了大数据交易市场,帮助大家进行数据交易和数据采购。由于缺少法律保护,很多企业不太想在交易市场进行数据交易,往往还是采用一对一的数据交易,这种交易方式可以保护交易双方的利益。具有商业价值的数据还在开发中,大数据交易市场,缺少大量可以进行交易的数据。大数据交易市场这种商业模式,还需要用很长的时间去证明。
中国质量最好的数据在金融行业、BAT、电信运营商,这些企业比较谨慎,很难向外部输出数据。这三大行业自身的主营业务也不在数据,其数据产品生产和输出的愿望也不强烈。政府的数据正在逐步开放,但是其数据质量、集中度、输出方式等多存在很大多挑战。在中国大规模的数据开放,至少需要3年时间才能达到商业应用要求。
3 大多数企业客户,对数据商业应用敏感度低
大多数企业对数据有需求,但是其对数据商业敏感度很低。对数据商业应用的场景以及数据技术了解很少。即使是数据商业敏感度较高的银行,至少要沟通三次以上,其才能够建立起数据价值理念。其他行业例如制造业,房地产业,零售业,他们的数据商业敏感度更低。甚至万科的王石也大声疾呼,不要和房地产业谈大数据应用,房产行业数据还不全,很多还是手工数据。于是某个领先的电商开始帮助万科进行数据规划建设,研究大数据在房地产行业的应用。
已有的大数据企业商业案例中,大部分都是大数据企业主动去找客户谈合作,为企业提供数据产品、数据工具或数据技术,目的是帮助企业提升业务。但是这种商业模式很累,市场很难被引爆,被动的数据商业应用,往往和业务结合较弱,无法迅速帮助企业利用数据提升业务,同时也无法解决业务发展瓶颈。
企业内部人士深度了解业务需求,他们缺少的是市场数据和消费者反馈,缺少的数据分析方法和工具。企业内部人士更应该成为大数据商业应用的主力,参加一些行业活动,从需求出发,主动寻找数据和解决方案。移动互联网时代,商业竞争策略很清晰,一个是快,一个是要利用数据进行决策。
大数据产业的发展,不仅仅是大数据企业自身的事情,也是各家企业自身的事情。企业客户也应该依据业务需要,主动到市场寻找数据和解决方案,提升数据商业敏感度,从业务场景出发,寻找具有价值的数据。
4大数据技术和产品同业务结合深度不够
市场上所有大数据企业和客户都面临一个难题,就是数据解决方案同客户业务结合的深度不够,数据对业务整体推动效果不如期望,这也是大数据产业爆发的一个痛点。由于外部数据质量、企业用户数据敏感度、企业管理方式、商业数据人才等问题,大数据解决方案很难和业务深度结合。
大数据核心价值就是揭示事务发展规律,帮助企业利用数据进行科学决策。目前大数据的商业应用领域主要集中在数据采集、数据存储、数据计算、用户画像、精准营销等领域。大数据最具商业价值的预测和辅助决策功能并没有被充分利用。特别是在重大战略决策方面,大数据的作用并不明显。企业的产品开发,市场策略,战略决策还是依靠过去的精英决策和经验主义。未来社会只有两类企业,一种是利用数据发展的企业,另外一种是不重视数据被淘汰的企业。
大数据企业如果想发展壮大,如果想成为行业领先的企业,其必须放弃短期利益,深入到客户的运营中去,了解客户的数据,了解客户的业务,了解客户的商业需求。同时利用数据了解客户,了解市场,了解业务场景。数据和业务深度结合的核心是掌握正确的数据、正确的方法、正确的工具。业务人员要懂数据,技术人员要懂业务。复合型数据人才是数据生意的关键,业务人员掌握数据技术的门槛较高,但是技术人员了解业务的门槛很低,复合性人才倾向于从技术人才培养开始。
企业内部的数据人才和大数据企业的数据人才需要互相学习,了解对方环境和需求,在同一个平台上进行对话和沟通。数据团队需要深入了解业务场景和背后的规律,从业务出发,从场景出发,从数据出发,将大数据解决方案同业务深度结合,利用数据推动业务发展,发挥大数据预测规律的核心价值。
5 专业数据挖掘工具和人才缺失
传统的数据挖掘工具和BI系统存在很久了,通过各类报表展示,让管理层了解企业运营信息,过去的确帮助企业提高管理水平,达到了预期目的。
在大数据时代,企业需要的是实时数据,需要的是高效工具,需要的是决策支持和预测。传统的数据挖掘工具的性能和灵活性已经不能满足企业的需要,另外非机构化数据的应用也对传统数据工具提出了挑战。BI领域中的SAS,SPSS,TD等数据工具越来越被边缘化,R语言正在成为数据统计和可视化的新宠。
数据的时间价值正在得到重视,特别是金融企业,所有的业务部门都期望在最短的时间里,看到资金使用情况,客户交易情况,风险管控情况。企业越早了解信息,就会越早进行决策,时间就是Money。过去数据需求可能是T+5或者T+30,现在的数据需求往往是T+1或者T+0,数据实时性、准确性、相关度被提到了一个非常重要的地位。业务的需求已经很明显了,但是数据工具和人才却是一个很大的挑战。
中国200多家大数据企业,看到了大数据产业的曙光,看到了大数据产业的价值,同时也在经历着大数据企业的痛苦。大数据产业发展很快,市场正在逐步变大,但是其产业优势不明显,优势企业很少,数据商业化较慢,市场还不成熟,客户数据商业敏感度较低,缺乏高质量数据工具和人才。所有大数据企业内心的感受就是,站在了时代的风口,选对了方向和行业,但是发展壮大还是很难。200多家大数据企业正在努力耕耘着大数据产业,痛并快乐着。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在 MySQL 实际应用中,“频繁写入同一表” 是常见场景 —— 如实时日志存储(用户操作日志、系统运行日志)、高频交易记录(支付 ...
2025-10-30为帮助教育工作者、研究者科学分析 “班级规模” 与 “平均成绩” 的关联关系,我将从相关系数的核心定义与类型切入,详解 “数 ...
2025-10-30对 CDA(Certified Data Analyst)数据分析师而言,“相关系数” 不是简单的数字计算,而是 “从业务问题出发,量化变量间关联强 ...
2025-10-30在构建前向神经网络(Feedforward Neural Network,简称 FNN)时,“隐藏层数目设多少?每个隐藏层该放多少个神经元?” 是每个 ...
2025-10-29这个问题切中了 Excel 用户的常见困惑 —— 将 “数据可视化工具” 与 “数据挖掘算法” 的功能边界混淆。核心结论是:Excel 透 ...
2025-10-29在 CDA(Certified Data Analyst)数据分析师的工作中,“多组数据差异验证” 是高频需求 —— 例如 “3 家门店的销售额是否有显 ...
2025-10-29在数据分析中,“正态分布” 是许多统计方法(如 t 检验、方差分析、线性回归)的核心假设 —— 数据符合正态分布时,统计检验的 ...
2025-10-28箱线图(Box Plot)作为展示数据分布的核心统计图表,能直观呈现数据的中位数、四分位数、离散程度与异常值,是质量控制、实验分 ...
2025-10-28在 CDA(Certified Data Analyst)数据分析师的工作中,“分类变量关联分析” 是高频需求 —— 例如 “用户性别是否影响支付方式 ...
2025-10-28在数据可视化领域,单一图表往往难以承载多维度信息 —— 力导向图擅长展现节点间的关联结构与空间分布,却无法直观呈现 “流量 ...
2025-10-27这个问题问到了 Tableau 中两个核心行级函数的经典组合,理解它能帮你快速实现 “相对位置占比” 的分析需求。“index ()/size ( ...
2025-10-27对 CDA(Certified Data Analyst)数据分析师而言,“假设检验” 绝非 “套用统计公式的机械操作”,而是 “将模糊的业务猜想转 ...
2025-10-27在数字化运营中,“凭感觉做决策” 早已成为过去式 —— 运营指标作为业务增长的 “晴雨表” 与 “导航仪”,直接决定了运营动作 ...
2025-10-24在卷积神经网络(CNN)的训练中,“卷积层(Conv)后是否添加归一化(如 BN、LN)和激活函数(如 ReLU、GELU)” 是每个开发者都 ...
2025-10-24在数据决策链条中,“统计分析” 是挖掘数据规律的核心,“可视化” 是呈现规律的桥梁 ——CDA(Certified Data Analyst)数据分 ...
2025-10-24在 “神经网络与卡尔曼滤波融合” 的理论基础上,Python 凭借其丰富的科学计算库(NumPy、FilterPy)、深度学习框架(PyTorch、T ...
2025-10-23在工业控制、自动驾驶、机器人导航、气象预测等领域,“状态估计” 是核心任务 —— 即从含噪声的观测数据中,精准推断系统的真 ...
2025-10-23在数据分析全流程中,“数据清洗” 恰似烹饪前的食材处理:若食材(数据)腐烂变质、混杂异物(脏数据),即便拥有精湛的烹饪技 ...
2025-10-23在人工智能领域,“大模型” 已成为近年来的热点标签:从参数超 1750 亿的 GPT-3,到万亿级参数的 PaLM,再到多模态大模型 GPT-4 ...
2025-10-22在 MySQL 数据库的日常运维与开发中,“更新数据是否会影响读数据” 是一个高频疑问。这个问题的答案并非简单的 “是” 或 “否 ...
2025-10-22