
中国大数据投资分析:落后国外一年半 且泡沫更多
大数据是基于多源异构、跨域关联的海量数据分析所产生的决策流程、商业模式、科学范式、生活方式和观念形态上的颠覆性变化的总和。在一切都被“数据化”的趋势下,大数据不再只是谷歌、亚马逊这类大公司的法宝,专注于数据服务或数据分析的创业公司已得到不少风险资本家的青睐。
我们数据分析师分析了近几年获得融资或被收购的大数据创业公司,发现在核心业务上国内大数据企业与国外当前存在较大差异,但却与国外早些时候的大数据初创企业存在着较高的相似性;相较于国外,国内大数据企业在硬技术方面比较欠缺,更多的是大数据的行业应用,而这些应用究竟是否真的属于大数据,尚有待商榷。整体来看,国内大数据的发展要落后国外一年半左右,且泡沫更多。
大数据投资领域
大数据包括从数据处理能力、数据对象形态和数据分析方式,到应用理念上的所有重大变革,其复杂性决定了大数据创业公司有着多种不同的方向。我们从国内外主流科技投资资讯媒体搜索以“大数据/融资”为标签的新闻稿件,然后再人工判断搜索结果中描述的公司是否符合大数据公司的标准。最终我们确定了35家在2012年1月到2013年7月期间获得融资的国内企业,以及67家在2009年5月到2013年7月期间获得融资的国外企业,所有企业名录及分类请参加附表。
从这些新闻稿中,我们数据分析师提取并列出了最重要的关键词——数据、分析、服务、平台、企业和应用,它们从侧面反映出这些企业的主营业务。为了对主营业务领域有更清晰地认识,我们将业务领域进行了多级分类。顶级的两个大类分别为基础设施和应用产品。进一步地,我们数据分析师将基础设施细分为信息采集、存储、分析和计算,恰对应于信息的整套基本处理流程;将应用产品细分为垂直类的行业应用和工具类的分析应用。更细致地,我们将类别精确到具体的业务种类和分析方法及对象上。整个大数据投资方向的分类树如图1所示,为了便于读者理解,我们加入了各对应类别最具代表性的企业范例。
图1:大数据投资领域分类树。
图2:所有国内外大数据企业在基础设施方面的分布图
国内大数据创业和投资落后国外约一年半
对比图2和图3,可以看到,大部分创业公司的主要业务都集中于应用产品类,尤其是应用分析方向。国内的基础设施对应用分析的比值为1:35(因为有一家公司同时被划分到了决策咨询和广告领域),国外是18:49,后者明显占优。另一方面,可以看出在基础设施方面国内大数据创新明显的欠缺。
图3:所有国内外大数据企业在应用产品方面的分布图
图4:国外大数据企业(2009年6月~2011年12月)与国内大数据企业(2012年1月~2013年6月)所在领域的对比
我们以2012年为分割点,将国内企业在各领域的分布与2012年前、后的国外企业分别进行对比,其中与2012年之前(2009年6月至2011年底)的图示对比情况如图4所示。用图4中第一行数字构成一维向量以表征国外大数据创业领域分布,第2行数字类表征国内大数据创业领域分布,这两列向量的余弦相似度高达0.8103(相似度的值越靠近1,说明相似度越高),不过国内的领域分布与近两年的国外企业领域分布的余弦相似度却仅有0.6319。由此可见,2012年初到2013年中国内大数据企业的领域分布与2009年中到2011年底国外大数据企业领域分布情况非常接近。
图5:一定时间范国外每月获得投资的大数据企业数量分布图
因此,国内的大数据创业与投资发展之路并非独树一帜,而且从发展历程上来讲,与国外2009年中到2011年底期间的发展比较接近。事实上,在2009年以前,国外对于大数据的投资案例并不多见,直到2011年2月份才出现了较为密集的连续投资,而国内直到2012年7月才出现连续的投资案例,如图5所示。粗糙地讲,国内大数据领域的创业和投资理念大约要落后于国外一年半的时间。
大数据泡沫
大部分创业公司的主要业务都集中于应用产品类的应用分析方向,且国内更甚——国内与国外在基础设施方面1:18的差距无疑暴露了国内企业在基础设施领域的短板。从技术上看,信息的存储、接口设计、加速计算等基础设施类的业务非硬技术不能支撑,相对来说,垂直应用类的产品,一个成熟的工程开发团队即使未得其神,也可复制其形;从资金方面来看,基础设施类公司最新一轮的平均融资金额为2234.12万美元,应用分析类对应的平均融资金额达到了2164.18万美元(其中Mu Sigma获得了1.08亿E轮融资,去掉此案例后的平均值为1866.4万美元),而行业垂直类却仅有872万美元;从时间上看,国外大数据的基础设施建设并非一开始就出现,也是经过长期的应用产品的积累期,需要有技术和理念的成长。因此,国内创业公司的这种落后是成长的必经之路。
相比技术硬实力驱动的基础设施创新型企业,垂直行业应用类的大数据企业在技术上的创新尽管新颖有趣,但是壁垒不足够。
以行业垂直领域中招聘类的产品为例,TalentBin从Facebook、Twitter、Google+、Meetup、Quora 等社交网站和Github、Stack Overflow 等垂直社区上的大量用户数据来收集一个人身份碎片,利用 PubMed 和 Behance 的信息对药物学、生物学和设计类职位的应聘人做初步评估;InternMatch收集了许多数据,包括学生兴趣、成绩、技能,以及与其简历匹配的职位等,利用数据驱动算法来向学生推荐就业机会;国内的智拓通达则整合各大社交平台的用户数据、行为数据和 UGC 内容,为企业和个人用户提供定制化服务;歪伯乐则是根据工作信息将新浪微博好友划分为工作圈并通过社交关系实现“人脉招聘”;数联寻英是通过分析社交网络数据,分别从职业背景、专业能力、好友匹配、性格匹配、职业倾向、工作地点、求职意愿、信任关系和行为模式这9个维度对潜在求职者进行全方位刻画,通过众包模式,以游戏的方式更好的帮助HR组织员工参与到职位内推任务中。
再以大数据分析为基础的决策咨询类公司为例,Mu Sigma擅长市场、供应链和风险分析等服务,覆盖面跨9个行业,为企业客户提供专业数据分析和数据决策支持服务;Dataminr则帮助企业客户在数百万条微博中搜寻重要的微博,其功能包括仪表盘、截图、告警细节等,其算法综合考虑了 Twitter 用户的位置、信誉、新闻外部引用、市场容量、市场价格等因素来提供告警信息;晶赞科技是一家面向大型企业的数字营销服务公司,拥有一系列的数字营销管理和分析产品,比如新近推出的实时再营销广告平台,它通过对用户标签和访问历史进行数据分析,向用户投放个性化的广告吸引他们再次访问。
上述的企业往往拥有很好的行业知识,但是其声称的数据采集能力和算法分析能力,其实并不具有特别突出的壁垒。绝大部分的技术,还是大家耳熟能详的文本分析,结构化数据下的机器学习和关联预测模型,网络信任模型等等。在我们调查案例的过程中,我们也确实发现有这么一些企业,他们一边声称自己是大数据公司,然而其当前的业务却仅仅是查询搜索,甚至主要依赖于人工呼叫服务,所声称的那些与大数据相关的业务却还停留在酝酿、设想当中。有一些企业,其概念和技术都很不错,但是自己不产生数据,而且数据来源单一,国内往往严重依赖于新浪微博,国外往往严重依赖于Facebook或Twitter,其潜在的风险都很大。即便在本文收录的大数据企业中,也存在一部分企业,它们并没有真正的大数据分析技术实力,而是以大数据分析为噱头获取融资以谋求发展,这类企业在国内垂直行业应用中占据相当份额。总的来看,目前的大数据创业和投资中已经存在一定的概念泡沫,而且在技术稍差的国内企业中泡沫更多——这在很大程度上也是因为投资人团队往往并不了解数据挖掘,异构数据分析和机器学习等方面的学术和技术前沿。
做有品位的大数据创业
https://www.cda.cn/国内大数据的发展虽然落后国外约一年半,并且目前多集中在泡沫较多的垂直应用领域,但是这个差距并不可怕,基本上可以说还处在同一起跑线上。我们已经看到在一些技术壁垒较高的应用分析领域,国内已经有企业成功的获得了B轮融资。比如做图像购物搜索的淘淘搜和利用大数据打造个性化推荐及消费偏好平台的百分点科技。因此,我们仍然可以较为乐观的认为中国和国外在大数据发展上都处在同一个上升阶段,方兴未艾!我们需要以良好的心态正视国内大数据创业公司在技术和发展上与国外的差距,并以更加开放和广阔的心态来开展有价值、有难度、有品位的大数据创新,减少追逐概念和资本的假创新。特别地,大数据更有价值的创新,可能还在医疗卫生、食品安全、工业制造、农业养殖等传统领域,因为从无到有、从0到1的创新,带来的价值增量更加可观。希望我国的创业者和投资人更多关注具有颠覆性的硬技术创新以及大数据在“似乎不可能用到大数据”的传统行业的巨大价值,通过努力去影响甚至改变一个大领域的产业范式。数据分析师培训
附表:调查分析所涉及的中外大数据创业型企业名录及领域分类
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
数据清洗工具全景指南:从入门到进阶的实操路径 在数据驱动决策的链条中,“数据清洗” 是决定后续分析与建模有效性的 “第一道 ...
2025-08-29机器学习中的参数优化:以预测结果为核心的闭环调优路径 在机器学习模型落地中,“参数” 是连接 “数据” 与 “预测结果” 的关 ...
2025-08-29CDA 数据分析与量化策略分析流程:协同落地数据驱动价值 在数据驱动决策的实践中,“流程” 是确保价值落地的核心骨架 ——CDA ...
2025-08-29CDA含金量分析 在数字经济与人工智能深度融合的时代,数据驱动决策已成为企业核心竞争力的关键要素。CDA(Certified Data Analys ...
2025-08-28CDA认证:数据时代的职业通行证 当海通证券的交易大厅里闪烁的屏幕实时跳动着市场数据,当苏州银行的数字金融部连夜部署新的风控 ...
2025-08-28PCU:游戏运营的 “实时晴雨表”—— 从数据监控到运营决策的落地指南 在游戏行业,DAU(日活跃用户)、MAU(月活跃用户)是衡量 ...
2025-08-28Excel 聚类分析:零代码实现数据分群,赋能中小团队业务决策 在数字化转型中,“数据分群” 是企业理解用户、优化运营的核心手段 ...
2025-08-28CDA 数据分析师:数字化时代数据思维的践行者与价值推动者 当数字经济成为全球经济增长的核心引擎,数据已从 “辅助性信息” 跃 ...
2025-08-28ALTER TABLE ADD 多个 INDEX:数据库批量索引优化的高效实践 在数据库运维与性能优化中,索引是提升查询效率的核心手段。当业务 ...
2025-08-27Power BI 去重函数:数据清洗与精准分析的核心工具 在企业数据分析流程中,数据质量直接决定分析结果的可靠性。Power BI 作为主 ...
2025-08-27CDA 数据分析师:数据探索与统计分析的实践与价值 在数字化浪潮席卷各行业的当下,数据已成为企业核心资产,而 CDA(Certif ...
2025-08-27t 检验与 Wilcoxon 检验:数据差异比较的两大统计利器 在数据分析中,“比较差异” 是核心需求之一 —— 如新药疗效是否优于旧药 ...
2025-08-26季节性分解外推法:解锁时间序列预测的规律密码 在商业决策、资源调度、政策制定等领域,准确的预测是规避风险、提升效率的关键 ...
2025-08-26CDA 数据分析师:数据治理驱动下的企业数据价值守护者 在数字经济时代,数据已成为企业核心战略资产,其价值的释放离不开高 ...
2025-08-26基于 SPSS 的 ROC 曲线平滑调整方法与实践指南 摘要 受试者工作特征曲线(ROC 曲线)是评估诊断模型或预测指标效能的核心工具, ...
2025-08-25神经网络隐藏层神经元个数的确定方法与实践 摘要 在神经网络模型设计中,隐藏层神经元个数的确定是影响模型性能、训练效率与泛 ...
2025-08-25CDA 数据分析师与数据思维:驱动企业管理升级的核心力量 在数字化浪潮席卷全球的当下,数据已成为企业继人力、物力、财力之后的 ...
2025-08-25CDA数据分析师与数据指标:基础概念与协同逻辑 一、CDA 数据分析师:数据驱动时代的核心角色 1.1 定义与行业价值 CDA(Certified ...
2025-08-22Power Query 移动加权平均计算 Power Query 移动加权平均设置全解析:从原理到实战 一、移动加权平均法的核心逻辑 移动加权平均 ...
2025-08-22描述性统计:CDA数据分析师的基础核心与实践应用 一、描述性统计的定位:CDA 认证的 “入门基石” 在 CDA(Certified Data Analy ...
2025-08-22