京公网安备 11010802034615号
经营许可证编号:京B2-20210330
中国大数据投资分析:落后国外一年半 且泡沫更多
大数据是基于多源异构、跨域关联的海量数据分析所产生的决策流程、商业模式、科学范式、生活方式和观念形态上的颠覆性变化的总和。在一切都被“数据化”的趋势下,大数据不再只是谷歌、亚马逊这类大公司的法宝,专注于数据服务或数据分析的创业公司已得到不少风险资本家的青睐。
我们数据分析师分析了近几年获得融资或被收购的大数据创业公司,发现在核心业务上国内大数据企业与国外当前存在较大差异,但却与国外早些时候的大数据初创企业存在着较高的相似性;相较于国外,国内大数据企业在硬技术方面比较欠缺,更多的是大数据的行业应用,而这些应用究竟是否真的属于大数据,尚有待商榷。整体来看,国内大数据的发展要落后国外一年半左右,且泡沫更多。
大数据投资领域
大数据包括从数据处理能力、数据对象形态和数据分析方式,到应用理念上的所有重大变革,其复杂性决定了大数据创业公司有着多种不同的方向。我们从国内外主流科技投资资讯媒体搜索以“大数据/融资”为标签的新闻稿件,然后再人工判断搜索结果中描述的公司是否符合大数据公司的标准。最终我们确定了35家在2012年1月到2013年7月期间获得融资的国内企业,以及67家在2009年5月到2013年7月期间获得融资的国外企业,所有企业名录及分类请参加附表。
从这些新闻稿中,我们数据分析师提取并列出了最重要的关键词——数据、分析、服务、平台、企业和应用,它们从侧面反映出这些企业的主营业务。为了对主营业务领域有更清晰地认识,我们将业务领域进行了多级分类。顶级的两个大类分别为基础设施和应用产品。进一步地,我们数据分析师将基础设施细分为信息采集、存储、分析和计算,恰对应于信息的整套基本处理流程;将应用产品细分为垂直类的行业应用和工具类的分析应用。更细致地,我们将类别精确到具体的业务种类和分析方法及对象上。整个大数据投资方向的分类树如图1所示,为了便于读者理解,我们加入了各对应类别最具代表性的企业范例。
图1:大数据投资领域分类树。
图2:所有国内外大数据企业在基础设施方面的分布图
国内大数据创业和投资落后国外约一年半
对比图2和图3,可以看到,大部分创业公司的主要业务都集中于应用产品类,尤其是应用分析方向。国内的基础设施对应用分析的比值为1:35(因为有一家公司同时被划分到了决策咨询和广告领域),国外是18:49,后者明显占优。另一方面,可以看出在基础设施方面国内大数据创新明显的欠缺。
图3:所有国内外大数据企业在应用产品方面的分布图
图4:国外大数据企业(2009年6月~2011年12月)与国内大数据企业(2012年1月~2013年6月)所在领域的对比
我们以2012年为分割点,将国内企业在各领域的分布与2012年前、后的国外企业分别进行对比,其中与2012年之前(2009年6月至2011年底)的图示对比情况如图4所示。用图4中第一行数字构成一维向量以表征国外大数据创业领域分布,第2行数字类表征国内大数据创业领域分布,这两列向量的余弦相似度高达0.8103(相似度的值越靠近1,说明相似度越高),不过国内的领域分布与近两年的国外企业领域分布的余弦相似度却仅有0.6319。由此可见,2012年初到2013年中国内大数据企业的领域分布与2009年中到2011年底国外大数据企业领域分布情况非常接近。
图5:一定时间范国外每月获得投资的大数据企业数量分布图
因此,国内的大数据创业与投资发展之路并非独树一帜,而且从发展历程上来讲,与国外2009年中到2011年底期间的发展比较接近。事实上,在2009年以前,国外对于大数据的投资案例并不多见,直到2011年2月份才出现了较为密集的连续投资,而国内直到2012年7月才出现连续的投资案例,如图5所示。粗糙地讲,国内大数据领域的创业和投资理念大约要落后于国外一年半的时间。
大数据泡沫
大部分创业公司的主要业务都集中于应用产品类的应用分析方向,且国内更甚——国内与国外在基础设施方面1:18的差距无疑暴露了国内企业在基础设施领域的短板。从技术上看,信息的存储、接口设计、加速计算等基础设施类的业务非硬技术不能支撑,相对来说,垂直应用类的产品,一个成熟的工程开发团队即使未得其神,也可复制其形;从资金方面来看,基础设施类公司最新一轮的平均融资金额为2234.12万美元,应用分析类对应的平均融资金额达到了2164.18万美元(其中Mu Sigma获得了1.08亿E轮融资,去掉此案例后的平均值为1866.4万美元),而行业垂直类却仅有872万美元;从时间上看,国外大数据的基础设施建设并非一开始就出现,也是经过长期的应用产品的积累期,需要有技术和理念的成长。因此,国内创业公司的这种落后是成长的必经之路。
相比技术硬实力驱动的基础设施创新型企业,垂直行业应用类的大数据企业在技术上的创新尽管新颖有趣,但是壁垒不足够。
以行业垂直领域中招聘类的产品为例,TalentBin从Facebook、Twitter、Google+、Meetup、Quora 等社交网站和Github、Stack Overflow 等垂直社区上的大量用户数据来收集一个人身份碎片,利用 PubMed 和 Behance 的信息对药物学、生物学和设计类职位的应聘人做初步评估;InternMatch收集了许多数据,包括学生兴趣、成绩、技能,以及与其简历匹配的职位等,利用数据驱动算法来向学生推荐就业机会;国内的智拓通达则整合各大社交平台的用户数据、行为数据和 UGC 内容,为企业和个人用户提供定制化服务;歪伯乐则是根据工作信息将新浪微博好友划分为工作圈并通过社交关系实现“人脉招聘”;数联寻英是通过分析社交网络数据,分别从职业背景、专业能力、好友匹配、性格匹配、职业倾向、工作地点、求职意愿、信任关系和行为模式这9个维度对潜在求职者进行全方位刻画,通过众包模式,以游戏的方式更好的帮助HR组织员工参与到职位内推任务中。
再以大数据分析为基础的决策咨询类公司为例,Mu Sigma擅长市场、供应链和风险分析等服务,覆盖面跨9个行业,为企业客户提供专业数据分析和数据决策支持服务;Dataminr则帮助企业客户在数百万条微博中搜寻重要的微博,其功能包括仪表盘、截图、告警细节等,其算法综合考虑了 Twitter 用户的位置、信誉、新闻外部引用、市场容量、市场价格等因素来提供告警信息;晶赞科技是一家面向大型企业的数字营销服务公司,拥有一系列的数字营销管理和分析产品,比如新近推出的实时再营销广告平台,它通过对用户标签和访问历史进行数据分析,向用户投放个性化的广告吸引他们再次访问。
上述的企业往往拥有很好的行业知识,但是其声称的数据采集能力和算法分析能力,其实并不具有特别突出的壁垒。绝大部分的技术,还是大家耳熟能详的文本分析,结构化数据下的机器学习和关联预测模型,网络信任模型等等。在我们调查案例的过程中,我们也确实发现有这么一些企业,他们一边声称自己是大数据公司,然而其当前的业务却仅仅是查询搜索,甚至主要依赖于人工呼叫服务,所声称的那些与大数据相关的业务却还停留在酝酿、设想当中。有一些企业,其概念和技术都很不错,但是自己不产生数据,而且数据来源单一,国内往往严重依赖于新浪微博,国外往往严重依赖于Facebook或Twitter,其潜在的风险都很大。即便在本文收录的大数据企业中,也存在一部分企业,它们并没有真正的大数据分析技术实力,而是以大数据分析为噱头获取融资以谋求发展,这类企业在国内垂直行业应用中占据相当份额。总的来看,目前的大数据创业和投资中已经存在一定的概念泡沫,而且在技术稍差的国内企业中泡沫更多——这在很大程度上也是因为投资人团队往往并不了解数据挖掘,异构数据分析和机器学习等方面的学术和技术前沿。
做有品位的大数据创业
https://www.cda.cn/国内大数据的发展虽然落后国外约一年半,并且目前多集中在泡沫较多的垂直应用领域,但是这个差距并不可怕,基本上可以说还处在同一起跑线上。我们已经看到在一些技术壁垒较高的应用分析领域,国内已经有企业成功的获得了B轮融资。比如做图像购物搜索的淘淘搜和利用大数据打造个性化推荐及消费偏好平台的百分点科技。因此,我们仍然可以较为乐观的认为中国和国外在大数据发展上都处在同一个上升阶段,方兴未艾!我们需要以良好的心态正视国内大数据创业公司在技术和发展上与国外的差距,并以更加开放和广阔的心态来开展有价值、有难度、有品位的大数据创新,减少追逐概念和资本的假创新。特别地,大数据更有价值的创新,可能还在医疗卫生、食品安全、工业制造、农业养殖等传统领域,因为从无到有、从0到1的创新,带来的价值增量更加可观。希望我国的创业者和投资人更多关注具有颠覆性的硬技术创新以及大数据在“似乎不可能用到大数据”的传统行业的巨大价值,通过努力去影响甚至改变一个大领域的产业范式。数据分析师培训
附表:调查分析所涉及的中外大数据创业型企业名录及领域分类
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在实验检测、质量控制、科研验证等场景中,“方法验证”是确保检测/分析结果可靠、可复用的核心环节——无论是新开发的检测方法 ...
2026-03-04在数据分析、科研实验、办公统计等场景中,我们常常需要对比两组数据的整体差异——比如两种营销策略的销售额差异、两种实验方案 ...
2026-03-04在数字化转型进入深水区的今天,企业对数据的依赖程度日益加深,而数据治理体系则是企业实现数据规范化、高质量化、价值化的核心 ...
2026-03-04在深度学习,尤其是卷积神经网络(CNN)的实操中,转置卷积(Transposed Convolution)是一个高频应用的操作——它核心用于实现 ...
2026-03-03在日常办公、数据分析、金融理财、科研统计等场景中,我们经常需要计算“平均值”来概括一组数据的整体水平——比如计算月度平均 ...
2026-03-03在数字化转型的浪潮中,数据已成为企业最核心的战略资产,而数据治理则是激活这份资产价值的前提——没有规范、高质量的数据治理 ...
2026-03-03在Excel办公中,数据透视表是汇总、分析繁杂数据的核心工具,我们常常通过它快速得到销售额汇总、人员统计、业绩分析等关键结果 ...
2026-03-02在日常办公和数据分析中,我们常常需要探究两个或多个数据之间的关联关系——比如销售额与广告投入是否正相关、员工出勤率与绩效 ...
2026-03-02在数字化运营中,时间序列数据是CDA(Certified Data Analyst)数据分析师最常接触的数据类型之一——每日的营收、每小时的用户 ...
2026-03-02在日常办公中,数据透视表是Excel、WPS等表格工具中最常用的数据分析利器——它能快速汇总繁杂数据、挖掘数据关联、生成直观报表 ...
2026-02-28有限元法(Finite Element Method, FEM)作为工程数值模拟的核心工具,已广泛应用于机械制造、航空航天、土木工程、生物医学等多 ...
2026-02-28在数字化时代,“以用户为中心”已成为企业运营的核心逻辑,而用户画像则是企业读懂用户、精准服务用户的关键载体。CDA(Certifi ...
2026-02-28在Python面向对象编程(OOP)中,类方法是构建模块化、可复用代码的核心载体,也是实现封装、继承、多态特性的关键工具。无论是 ...
2026-02-27在MySQL数据库优化中,索引是提升查询效率的核心手段—— 面对千万级、亿级数据量,合理创建索引能将查询时间从秒级压缩到毫秒级 ...
2026-02-27在数字化时代,企业积累的海量数据如同散落的珍珠,若缺乏有效的梳理与分类,终将难以发挥实际价值。CDA(Certified Data Analys ...
2026-02-27在问卷调研中,我们常遇到这样的场景:针对同一批调查对象,在不同时间点(如干预前、干预后、随访期)发放相同或相似的问卷,收 ...
2026-02-26在销售管理的实操场景中,“销售机会”是核心抓手—— 从潜在客户接触到最终成交,每一个环节都藏着业绩增长的关键,也暗藏着客 ...
2026-02-26在CDA数据分析师的日常工作中,数据提取、整理、加工是所有分析工作的起点,而“创建表”与“创建视图”,则是数据库操作中最基 ...
2026-02-26在机器学习分析、数据决策的全流程中,“数据质量决定分析价值”早已成为行业共识—— 正如我们此前在运用机器学习进行分析时强 ...
2026-02-25在数字化时代,数据已成为企业决策、行业升级的核心资产,但海量杂乱的原始数据本身不具备价值—— 只有通过科学的分析方法,挖 ...
2026-02-25