
中国大数据投资分析:落后国外一年半 且泡沫更多
大数据是基于多源异构、跨域关联的海量数据分析所产生的决策流程、商业模式、科学范式、生活方式和观念形态上的颠覆性变化的总和。在一切都被“数据化”的趋势下,大数据不再只是谷歌、亚马逊这类大公司的法宝,专注于数据服务或数据分析的创业公司已得到不少风险资本家的青睐。
我们数据分析师分析了近几年获得融资或被收购的大数据创业公司,发现在核心业务上国内大数据企业与国外当前存在较大差异,但却与国外早些时候的大数据初创企业存在着较高的相似性;相较于国外,国内大数据企业在硬技术方面比较欠缺,更多的是大数据的行业应用,而这些应用究竟是否真的属于大数据,尚有待商榷。整体来看,国内大数据的发展要落后国外一年半左右,且泡沫更多。
大数据投资领域
大数据包括从数据处理能力、数据对象形态和数据分析方式,到应用理念上的所有重大变革,其复杂性决定了大数据创业公司有着多种不同的方向。我们从国内外主流科技投资资讯媒体搜索以“大数据/融资”为标签的新闻稿件,然后再人工判断搜索结果中描述的公司是否符合大数据公司的标准。最终我们确定了35家在2012年1月到2013年7月期间获得融资的国内企业,以及67家在2009年5月到2013年7月期间获得融资的国外企业,所有企业名录及分类请参加附表。
从这些新闻稿中,我们数据分析师提取并列出了最重要的关键词——数据、分析、服务、平台、企业和应用,它们从侧面反映出这些企业的主营业务。为了对主营业务领域有更清晰地认识,我们将业务领域进行了多级分类。顶级的两个大类分别为基础设施和应用产品。进一步地,我们数据分析师将基础设施细分为信息采集、存储、分析和计算,恰对应于信息的整套基本处理流程;将应用产品细分为垂直类的行业应用和工具类的分析应用。更细致地,我们将类别精确到具体的业务种类和分析方法及对象上。整个大数据投资方向的分类树如图1所示,为了便于读者理解,我们加入了各对应类别最具代表性的企业范例。
图1:大数据投资领域分类树。
图2:所有国内外大数据企业在基础设施方面的分布图
国内大数据创业和投资落后国外约一年半
对比图2和图3,可以看到,大部分创业公司的主要业务都集中于应用产品类,尤其是应用分析方向。国内的基础设施对应用分析的比值为1:35(因为有一家公司同时被划分到了决策咨询和广告领域),国外是18:49,后者明显占优。另一方面,可以看出在基础设施方面国内大数据创新明显的欠缺。
图3:所有国内外大数据企业在应用产品方面的分布图
图4:国外大数据企业(2009年6月~2011年12月)与国内大数据企业(2012年1月~2013年6月)所在领域的对比
我们以2012年为分割点,将国内企业在各领域的分布与2012年前、后的国外企业分别进行对比,其中与2012年之前(2009年6月至2011年底)的图示对比情况如图4所示。用图4中第一行数字构成一维向量以表征国外大数据创业领域分布,第2行数字类表征国内大数据创业领域分布,这两列向量的余弦相似度高达0.8103(相似度的值越靠近1,说明相似度越高),不过国内的领域分布与近两年的国外企业领域分布的余弦相似度却仅有0.6319。由此可见,2012年初到2013年中国内大数据企业的领域分布与2009年中到2011年底国外大数据企业领域分布情况非常接近。
图5:一定时间范国外每月获得投资的大数据企业数量分布图
因此,国内的大数据创业与投资发展之路并非独树一帜,而且从发展历程上来讲,与国外2009年中到2011年底期间的发展比较接近。事实上,在2009年以前,国外对于大数据的投资案例并不多见,直到2011年2月份才出现了较为密集的连续投资,而国内直到2012年7月才出现连续的投资案例,如图5所示。粗糙地讲,国内大数据领域的创业和投资理念大约要落后于国外一年半的时间。
大数据泡沫
大部分创业公司的主要业务都集中于应用产品类的应用分析方向,且国内更甚——国内与国外在基础设施方面1:18的差距无疑暴露了国内企业在基础设施领域的短板。从技术上看,信息的存储、接口设计、加速计算等基础设施类的业务非硬技术不能支撑,相对来说,垂直应用类的产品,一个成熟的工程开发团队即使未得其神,也可复制其形;从资金方面来看,基础设施类公司最新一轮的平均融资金额为2234.12万美元,应用分析类对应的平均融资金额达到了2164.18万美元(其中Mu Sigma获得了1.08亿E轮融资,去掉此案例后的平均值为1866.4万美元),而行业垂直类却仅有872万美元;从时间上看,国外大数据的基础设施建设并非一开始就出现,也是经过长期的应用产品的积累期,需要有技术和理念的成长。因此,国内创业公司的这种落后是成长的必经之路。
相比技术硬实力驱动的基础设施创新型企业,垂直行业应用类的大数据企业在技术上的创新尽管新颖有趣,但是壁垒不足够。
以行业垂直领域中招聘类的产品为例,TalentBin从Facebook、Twitter、Google+、Meetup、Quora 等社交网站和Github、Stack Overflow 等垂直社区上的大量用户数据来收集一个人身份碎片,利用 PubMed 和 Behance 的信息对药物学、生物学和设计类职位的应聘人做初步评估;InternMatch收集了许多数据,包括学生兴趣、成绩、技能,以及与其简历匹配的职位等,利用数据驱动算法来向学生推荐就业机会;国内的智拓通达则整合各大社交平台的用户数据、行为数据和 UGC 内容,为企业和个人用户提供定制化服务;歪伯乐则是根据工作信息将新浪微博好友划分为工作圈并通过社交关系实现“人脉招聘”;数联寻英是通过分析社交网络数据,分别从职业背景、专业能力、好友匹配、性格匹配、职业倾向、工作地点、求职意愿、信任关系和行为模式这9个维度对潜在求职者进行全方位刻画,通过众包模式,以游戏的方式更好的帮助HR组织员工参与到职位内推任务中。
再以大数据分析为基础的决策咨询类公司为例,Mu Sigma擅长市场、供应链和风险分析等服务,覆盖面跨9个行业,为企业客户提供专业数据分析和数据决策支持服务;Dataminr则帮助企业客户在数百万条微博中搜寻重要的微博,其功能包括仪表盘、截图、告警细节等,其算法综合考虑了 Twitter 用户的位置、信誉、新闻外部引用、市场容量、市场价格等因素来提供告警信息;晶赞科技是一家面向大型企业的数字营销服务公司,拥有一系列的数字营销管理和分析产品,比如新近推出的实时再营销广告平台,它通过对用户标签和访问历史进行数据分析,向用户投放个性化的广告吸引他们再次访问。
上述的企业往往拥有很好的行业知识,但是其声称的数据采集能力和算法分析能力,其实并不具有特别突出的壁垒。绝大部分的技术,还是大家耳熟能详的文本分析,结构化数据下的机器学习和关联预测模型,网络信任模型等等。在我们调查案例的过程中,我们也确实发现有这么一些企业,他们一边声称自己是大数据公司,然而其当前的业务却仅仅是查询搜索,甚至主要依赖于人工呼叫服务,所声称的那些与大数据相关的业务却还停留在酝酿、设想当中。有一些企业,其概念和技术都很不错,但是自己不产生数据,而且数据来源单一,国内往往严重依赖于新浪微博,国外往往严重依赖于Facebook或Twitter,其潜在的风险都很大。即便在本文收录的大数据企业中,也存在一部分企业,它们并没有真正的大数据分析技术实力,而是以大数据分析为噱头获取融资以谋求发展,这类企业在国内垂直行业应用中占据相当份额。总的来看,目前的大数据创业和投资中已经存在一定的概念泡沫,而且在技术稍差的国内企业中泡沫更多——这在很大程度上也是因为投资人团队往往并不了解数据挖掘,异构数据分析和机器学习等方面的学术和技术前沿。
做有品位的大数据创业
https://www.cda.cn/国内大数据的发展虽然落后国外约一年半,并且目前多集中在泡沫较多的垂直应用领域,但是这个差距并不可怕,基本上可以说还处在同一起跑线上。我们已经看到在一些技术壁垒较高的应用分析领域,国内已经有企业成功的获得了B轮融资。比如做图像购物搜索的淘淘搜和利用大数据打造个性化推荐及消费偏好平台的百分点科技。因此,我们仍然可以较为乐观的认为中国和国外在大数据发展上都处在同一个上升阶段,方兴未艾!我们需要以良好的心态正视国内大数据创业公司在技术和发展上与国外的差距,并以更加开放和广阔的心态来开展有价值、有难度、有品位的大数据创新,减少追逐概念和资本的假创新。特别地,大数据更有价值的创新,可能还在医疗卫生、食品安全、工业制造、农业养殖等传统领域,因为从无到有、从0到1的创新,带来的价值增量更加可观。希望我国的创业者和投资人更多关注具有颠覆性的硬技术创新以及大数据在“似乎不可能用到大数据”的传统行业的巨大价值,通过努力去影响甚至改变一个大领域的产业范式。数据分析师培训
附表:调查分析所涉及的中外大数据创业型企业名录及领域分类
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
如何考取数据分析师证书:以 CDA 为例 在数字化浪潮席卷各行各业的当下,数据分析师已然成为企业挖掘数据价值、驱动决策的 ...
2025-07-15CDA 精益业务数据分析:驱动企业高效决策的核心引擎 在数字经济时代,企业面临着前所未有的数据洪流,如何从海量数据中提取有 ...
2025-07-15MySQL 无外键关联表的 JOIN 实战:数据整合的灵活之道 在 MySQL 数据库的日常操作中,我们经常会遇到需要整合多张表数据的场景 ...
2025-07-15Python Pandas:数据科学的瑞士军刀 在数据驱动的时代,面对海量、复杂的数据,如何高效地进行处理、分析和挖掘成为关键。 ...
2025-07-15用 SQL 生成逆向回滚 SQL:数据操作的 “后悔药” 指南 在数据库操作中,误删数据、错改字段或误执行批量更新等问题时有发生。 ...
2025-07-14t检验与Wilcoxon检验的选择:何时用t.test,何时用wilcox.test? t 检验与 Wilcoxon 检验的选择:何时用 t.test,何时用 wilcox. ...
2025-07-14AI 浪潮下的生存与进阶: CDA数据分析师—开启新时代职业生涯的钥匙(深度研究报告、发展指导白皮书) 发布机构:CDA数据科 ...
2025-07-13LSTM 模型输入长度选择技巧:提升序列建模效能的关键 在循环神经网络(RNN)家族中,长短期记忆网络(LSTM)凭借其解决长序列 ...
2025-07-11CDA 数据分析师报考条件详解与准备指南 在数据驱动决策的时代浪潮下,CDA 数据分析师认证愈发受到瞩目,成为众多有志投身数 ...
2025-07-11数据透视表中两列相乘合计的实用指南 在数据分析的日常工作中,数据透视表凭借其强大的数据汇总和分析功能,成为了 Excel 用户 ...
2025-07-11尊敬的考生: 您好! 我们诚挚通知您,CDA Level I和 Level II考试大纲将于 2025年7月25日 实施重大更新。 此次更新旨在确保认 ...
2025-07-10BI 大数据分析师:连接数据与业务的价值转化者 在大数据与商业智能(Business Intelligence,简称 BI)深度融合的时代,BI ...
2025-07-10SQL 在预测分析中的应用:从数据查询到趋势预判 在数据驱动决策的时代,预测分析作为挖掘数据潜在价值的核心手段,正被广泛 ...
2025-07-10数据查询结束后:分析师的收尾工作与价值深化 在数据分析的全流程中,“query end”(查询结束)并非工作的终点,而是将数 ...
2025-07-10CDA 数据分析师考试:从报考到取证的全攻略 在数字经济蓬勃发展的今天,数据分析师已成为各行业争抢的核心人才,而 CDA(Certi ...
2025-07-09【CDA干货】单样本趋势性检验:捕捉数据背后的时间轨迹 在数据分析的版图中,单样本趋势性检验如同一位耐心的侦探,专注于从单 ...
2025-07-09year_month数据类型:时间维度的精准切片 在数据的世界里,时间是最不可或缺的维度之一,而year_month数据类型就像一把精准 ...
2025-07-09CDA 备考干货:Python 在数据分析中的核心应用与实战技巧 在 CDA 数据分析师认证考试中,Python 作为数据处理与分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 检验:数据趋势与突变分析的有力工具 在数据分析的广袤领域中,准确捕捉数据的趋势变化以及识别 ...
2025-07-08备战 CDA 数据分析师考试:需要多久?如何规划? CDA(Certified Data Analyst)数据分析师认证作为国内权威的数据分析能力认证 ...
2025-07-08