京公网安备 11010802034615号
经营许可证编号:京B2-20210330
做大数据真的能赚钱吗
于IT业内,大数据之火热程度,似乎无出其右者。当然,在其真正爆发前夜,也应该适时泼盆冷水。
谁能接触到数据
以我来形容中国大数据产业,可称“蒙面狂奔”四字。在没有思考清晰盈利模式之时,已蒙面狂奔,绝尘而去。
国内冠以大数据之名的企业数以千计,但细分其专注领域,大致可归属三类:其一,平台型企业,例如华为、星环科技、浪潮、新华三等;其二,工具型企业,例如在数据采集、数据分析、数据清洗、数据可视化等领域中的海量数据、帆软软件、明略数据等;其三,应用型企业,例如百分点,以及国内诸多行业方案商多属于此类型。
不需否认,大数据已在国内诸多行业领域展现出其价值,但深究典型案例,应远未如媒体宣传中显著。为何?有资格被称为大数据企业,取决于两个先要条件:其一,掌握或接触到用户数据;其二,有能力为用户提供数据服务。
先观察首要条件,大数据企业能否掌握,或接触到用户数据。答案:很难。除互联网公开数据之外,第三方能接触到的数据资源着实有限。以IT方案商为例,此前其以为用户设计、实施行业应用软件为主营业务,理论上距离数据最近,但就如建筑商,建设了广厦千万间,建设了条条大路通罗马,也不能掌握居民和车辆信息一样。方案商实施了行业应用软件,其中也承载了海量价值数据,但这并不等同于能接触到数据。
退一步说,在企业意识到数据也是资产,数据也能创造价值后,其正急需寻找数据服务商,或数据运营商。而能够承担此角色者,IT方案商应为首选。原因?方案商为企业用户提供了十余年IT服务,多少会产生些信任度,从IT服务,延伸到数据服务,应为顺其自然。
而问题又由此而来,大数据真的有用吗?实施了铁路车辆检修大数据系统,工人手中使用了几十年敲敲打打的“小铁锤”就能退休?实施了金融风险管控大数据系统,其结论是否能直接自动导入金融机构业务流程,而无需人工干预?答案基本否定。
原因在于,大数据应用服务商即使能获得用户数据,也极其有限、极其不全面。以城市交通信息为例,此类通常掌握在20余部门手中,方案商几乎不可能全面融合此类数据。而基于不全面的、错误的数据源,也就不可能推导出正确,有决策价值的结论。
做大数据真的能赚钱吗?
当然,基于局部数据,也仍有可能建设出经典的大数据案例。但大数据项目真的赚钱吗?未必。在诸多大数据企业中,融资进度大多在B轮和C轮之间,尚没有一家企业完成D轮融资。也就是说,距离赚钱尚早。
而细分技术领域,首先,大数据工具类企业业务模式相对简单,其只是产业链中的一环,实现盈利相对容易。其次,大数据平台型企业,其盈利模式比较复杂。单纯依靠销售大数据平台几乎不可能产生经济效益,而基于不同的业务出身,其业务模式又可分化为三个流派,一类企业希望以大数据平台带动底层硬件产品销售;而另一类企业,通过提供支持标准的SQL接口,依靠提供数据服务实现盈利。当然,第三类企业比较“野蛮”,希望通过数据,或基于用户数据的服务直接变现。
而除此之外,业务模式更为“枯燥”的是大数据应用类企业。通常行业方案商的大数据业务范畴包括:数据获取、整合、治理、应用和展现等,其中尤以数据治理最苦最累,在大数据项目中50%~60%的工作量也集中于此,不要忽悠什么人工智能、深度学习能解决此类问题,基本还属于纸上谈兵的阶段。
问题由此而来,脏活累活总还是要有人干。配备10名数据科学家不能算多吧!月薪1万元要也不算苛刻吧!如此算下来,稍有实力的方案商大数据部门,年均人力成本就应在250万元以上。250万元?要做多少大数据项目,而且前提是要保证每个项目间要有很好地时间衔接,还要保证每个项目的能力需求都要与数据科学家的专长技能相匹配。
同时,与云计算不同,云计算考验方案商纯IT方面能力,而大数据项目则需要方案商数据科学家与行业团队,以及用户业务专家紧密结合,合作建立基于应用场景的数据分析模型。由此,每个项目的成功均需具备“天时、地利、人和”。也就是说,单个大数据项目的定制化程度相对较高,达到50%~40%,项目间很难具有可复制性,方案商也因此较难建立成熟的大数据项目盈利模型。
但最后还需说一句,形容中国大数据产业为“蒙面狂奔”,也许言过其实,但诸多桎梏确实摆在眼前。不管是依靠数据服务,还是行业应用定制,中国大数据产业仍需极大的人力消耗,成熟的盈利模型尚未建立。“蒙面”是现状,也是必然阶段,但衷心希望中国大数据企业再“狂奔”一两年之后,面纱终能被一缕清风揭去。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在构建前向神经网络(Feedforward Neural Network,简称 FNN)时,“隐藏层数目设多少?每个隐藏层该放多少个神经元?” 是每个 ...
2025-10-29这个问题切中了 Excel 用户的常见困惑 —— 将 “数据可视化工具” 与 “数据挖掘算法” 的功能边界混淆。核心结论是:Excel 透 ...
2025-10-29在 CDA(Certified Data Analyst)数据分析师的工作中,“多组数据差异验证” 是高频需求 —— 例如 “3 家门店的销售额是否有显 ...
2025-10-29在数据分析中,“正态分布” 是许多统计方法(如 t 检验、方差分析、线性回归)的核心假设 —— 数据符合正态分布时,统计检验的 ...
2025-10-28箱线图(Box Plot)作为展示数据分布的核心统计图表,能直观呈现数据的中位数、四分位数、离散程度与异常值,是质量控制、实验分 ...
2025-10-28在 CDA(Certified Data Analyst)数据分析师的工作中,“分类变量关联分析” 是高频需求 —— 例如 “用户性别是否影响支付方式 ...
2025-10-28在数据可视化领域,单一图表往往难以承载多维度信息 —— 力导向图擅长展现节点间的关联结构与空间分布,却无法直观呈现 “流量 ...
2025-10-27这个问题问到了 Tableau 中两个核心行级函数的经典组合,理解它能帮你快速实现 “相对位置占比” 的分析需求。“index ()/size ( ...
2025-10-27对 CDA(Certified Data Analyst)数据分析师而言,“假设检验” 绝非 “套用统计公式的机械操作”,而是 “将模糊的业务猜想转 ...
2025-10-27在数字化运营中,“凭感觉做决策” 早已成为过去式 —— 运营指标作为业务增长的 “晴雨表” 与 “导航仪”,直接决定了运营动作 ...
2025-10-24在卷积神经网络(CNN)的训练中,“卷积层(Conv)后是否添加归一化(如 BN、LN)和激活函数(如 ReLU、GELU)” 是每个开发者都 ...
2025-10-24在数据决策链条中,“统计分析” 是挖掘数据规律的核心,“可视化” 是呈现规律的桥梁 ——CDA(Certified Data Analyst)数据分 ...
2025-10-24在 “神经网络与卡尔曼滤波融合” 的理论基础上,Python 凭借其丰富的科学计算库(NumPy、FilterPy)、深度学习框架(PyTorch、T ...
2025-10-23在工业控制、自动驾驶、机器人导航、气象预测等领域,“状态估计” 是核心任务 —— 即从含噪声的观测数据中,精准推断系统的真 ...
2025-10-23在数据分析全流程中,“数据清洗” 恰似烹饪前的食材处理:若食材(数据)腐烂变质、混杂异物(脏数据),即便拥有精湛的烹饪技 ...
2025-10-23在人工智能领域,“大模型” 已成为近年来的热点标签:从参数超 1750 亿的 GPT-3,到万亿级参数的 PaLM,再到多模态大模型 GPT-4 ...
2025-10-22在 MySQL 数据库的日常运维与开发中,“更新数据是否会影响读数据” 是一个高频疑问。这个问题的答案并非简单的 “是” 或 “否 ...
2025-10-22在企业数据分析中,“数据孤岛” 是制约分析深度的核心瓶颈 —— 用户数据散落在注册系统、APP 日志、客服记录中,订单数据分散 ...
2025-10-22在神经网络设计中,“隐藏层个数” 是决定模型能力的关键参数 —— 太少会导致 “欠拟合”(模型无法捕捉复杂数据规律,如用单隐 ...
2025-10-21在特征工程流程中,“单变量筛选” 是承上启下的关键步骤 —— 它通过分析单个特征与目标变量的关联强度,剔除无意义、冗余的特 ...
2025-10-21