
中国大数据投资分析:落后国外一年半 且泡沫更多
大数据是基于多源异构、跨域关联的海量数据分析所产生的决策流程、商业模式、科学范式、生活方式和观念形态上的颠覆性变化的总和。在一切都被“数据化”的趋势下,大数据不再只是谷歌、亚马逊这类大公司的法宝,专注于数据服务或数据分析的创业公司已得到不少风险资本家的青睐。
我们数据分析师分析了近几年获得融资或被收购的大数据创业公司,发现在核心业务上国内大数据企业与国外当前存在较大差异,但却与国外早些时候的大数据初创企业存在着较高的相似性;相较于国外,国内大数据企业在硬技术方面比较欠缺,更多的是大数据的行业应用,而这些应用究竟是否真的属于大数据,尚有待商榷。整体来看,国内大数据的发展要落后国外一年半左右,且泡沫更多。
大数据投资领域
大数据包括从数据处理能力、数据对象形态和数据分析方式,到应用理念上的所有重大变革,其复杂性决定了大数据创业公司有着多种不同的方向。我们从国内外主流科技投资资讯媒体搜索以“大数据/融资”为标签的新闻稿件,然后再人工判断搜索结果中描述的公司是否符合大数据公司的标准。最终我们确定了35家在2012年1月到2013年7月期间获得融资的国内企业,以及67家在2009年5月到2013年7月期间获得融资的国外企业,所有企业名录及分类请参加附表。
从这些新闻稿中,我们数据分析师提取并列出了最重要的关键词——数据、分析、服务、平台、企业和应用,它们从侧面反映出这些企业的主营业务。为了对主营业务领域有更清晰地认识,我们将业务领域进行了多级分类。顶级的两个大类分别为基础设施和应用产品。进一步地,我们数据分析师将基础设施细分为信息采集、存储、分析和计算,恰对应于信息的整套基本处理流程;将应用产品细分为垂直类的行业应用和工具类的分析应用。更细致地,我们将类别精确到具体的业务种类和分析方法及对象上。整个大数据投资方向的分类树如图1所示,为了便于读者理解,我们加入了各对应类别最具代表性的企业范例。
图1:大数据投资领域分类树。
图2:所有国内外大数据企业在基础设施方面的分布图
国内大数据创业和投资落后国外约一年半
对比图2和图3,可以看到,大部分创业公司的主要业务都集中于应用产品类,尤其是应用分析方向。国内的基础设施对应用分析的比值为1:35(因为有一家公司同时被划分到了决策咨询和广告领域),国外是18:49,后者明显占优。另一方面,可以看出在基础设施方面国内大数据创新明显的欠缺。
图3:所有国内外大数据企业在应用产品方面的分布图
图4:国外大数据企业(2009年6月~2011年12月)与国内大数据企业(2012年1月~2013年6月)所在领域的对比
我们以2012年为分割点,将国内企业在各领域的分布与2012年前、后的国外企业分别进行对比,其中与2012年之前(2009年6月至2011年底)的图示对比情况如图4所示。用图4中第一行数字构成一维向量以表征国外大数据创业领域分布,第2行数字类表征国内大数据创业领域分布,这两列向量的余弦相似度高达0.8103(相似度的值越靠近1,说明相似度越高),不过国内的领域分布与近两年的国外企业领域分布的余弦相似度却仅有0.6319。由此可见,2012年初到2013年中国内大数据企业的领域分布与2009年中到2011年底国外大数据企业领域分布情况非常接近。
图5:一定时间范国外每月获得投资的大数据企业数量分布图
因此,国内的大数据创业与投资发展之路并非独树一帜,而且从发展历程上来讲,与国外2009年中到2011年底期间的发展比较接近。事实上,在2009年以前,国外对于大数据的投资案例并不多见,直到2011年2月份才出现了较为密集的连续投资,而国内直到2012年7月才出现连续的投资案例,如图5所示。粗糙地讲,国内大数据领域的创业和投资理念大约要落后于国外一年半的时间。
大数据泡沫
大部分创业公司的主要业务都集中于应用产品类的应用分析方向,且国内更甚——国内与国外在基础设施方面1:18的差距无疑暴露了国内企业在基础设施领域的短板。从技术上看,信息的存储、接口设计、加速计算等基础设施类的业务非硬技术不能支撑,相对来说,垂直应用类的产品,一个成熟的工程开发团队即使未得其神,也可复制其形;从资金方面来看,基础设施类公司最新一轮的平均融资金额为2234.12万美元,应用分析类对应的平均融资金额达到了2164.18万美元(其中Mu Sigma获得了1.08亿E轮融资,去掉此案例后的平均值为1866.4万美元),而行业垂直类却仅有872万美元;从时间上看,国外大数据的基础设施建设并非一开始就出现,也是经过长期的应用产品的积累期,需要有技术和理念的成长。因此,国内创业公司的这种落后是成长的必经之路。
相比技术硬实力驱动的基础设施创新型企业,垂直行业应用类的大数据企业在技术上的创新尽管新颖有趣,但是壁垒不足够。
以行业垂直领域中招聘类的产品为例,TalentBin从Facebook、Twitter、Google+、Meetup、Quora 等社交网站和Github、Stack Overflow 等垂直社区上的大量用户数据来收集一个人身份碎片,利用 PubMed 和 Behance 的信息对药物学、生物学和设计类职位的应聘人做初步评估;InternMatch收集了许多数据,包括学生兴趣、成绩、技能,以及与其简历匹配的职位等,利用数据驱动算法来向学生推荐就业机会;国内的智拓通达则整合各大社交平台的用户数据、行为数据和 UGC 内容,为企业和个人用户提供定制化服务;歪伯乐则是根据工作信息将新浪微博好友划分为工作圈并通过社交关系实现“人脉招聘”;数联寻英是通过分析社交网络数据,分别从职业背景、专业能力、好友匹配、性格匹配、职业倾向、工作地点、求职意愿、信任关系和行为模式这9个维度对潜在求职者进行全方位刻画,通过众包模式,以游戏的方式更好的帮助HR组织员工参与到职位内推任务中。
再以大数据分析为基础的决策咨询类公司为例,Mu Sigma擅长市场、供应链和风险分析等服务,覆盖面跨9个行业,为企业客户提供专业数据分析和数据决策支持服务;Dataminr则帮助企业客户在数百万条微博中搜寻重要的微博,其功能包括仪表盘、截图、告警细节等,其算法综合考虑了 Twitter 用户的位置、信誉、新闻外部引用、市场容量、市场价格等因素来提供告警信息;晶赞科技是一家面向大型企业的数字营销服务公司,拥有一系列的数字营销管理和分析产品,比如新近推出的实时再营销广告平台,它通过对用户标签和访问历史进行数据分析,向用户投放个性化的广告吸引他们再次访问。
上述的企业往往拥有很好的行业知识,但是其声称的数据采集能力和算法分析能力,其实并不具有特别突出的壁垒。绝大部分的技术,还是大家耳熟能详的文本分析,结构化数据下的机器学习和关联预测模型,网络信任模型等等。在我们调查案例的过程中,我们也确实发现有这么一些企业,他们一边声称自己是大数据公司,然而其当前的业务却仅仅是查询搜索,甚至主要依赖于人工呼叫服务,所声称的那些与大数据相关的业务却还停留在酝酿、设想当中。有一些企业,其概念和技术都很不错,但是自己不产生数据,而且数据来源单一,国内往往严重依赖于新浪微博,国外往往严重依赖于Facebook或Twitter,其潜在的风险都很大。即便在本文收录的大数据企业中,也存在一部分企业,它们并没有真正的大数据分析技术实力,而是以大数据分析为噱头获取融资以谋求发展,这类企业在国内垂直行业应用中占据相当份额。总的来看,目前的大数据创业和投资中已经存在一定的概念泡沫,而且在技术稍差的国内企业中泡沫更多——这在很大程度上也是因为投资人团队往往并不了解数据挖掘,异构数据分析和机器学习等方面的学术和技术前沿。
做有品位的大数据创业
https://www.cda.cn/国内大数据的发展虽然落后国外约一年半,并且目前多集中在泡沫较多的垂直应用领域,但是这个差距并不可怕,基本上可以说还处在同一起跑线上。我们已经看到在一些技术壁垒较高的应用分析领域,国内已经有企业成功的获得了B轮融资。比如做图像购物搜索的淘淘搜和利用大数据打造个性化推荐及消费偏好平台的百分点科技。因此,我们仍然可以较为乐观的认为中国和国外在大数据发展上都处在同一个上升阶段,方兴未艾!我们需要以良好的心态正视国内大数据创业公司在技术和发展上与国外的差距,并以更加开放和广阔的心态来开展有价值、有难度、有品位的大数据创新,减少追逐概念和资本的假创新。特别地,大数据更有价值的创新,可能还在医疗卫生、食品安全、工业制造、农业养殖等传统领域,因为从无到有、从0到1的创新,带来的价值增量更加可观。希望我国的创业者和投资人更多关注具有颠覆性的硬技术创新以及大数据在“似乎不可能用到大数据”的传统行业的巨大价值,通过努力去影响甚至改变一个大领域的产业范式。数据分析师培训
附表:调查分析所涉及的中外大数据创业型企业名录及领域分类
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在数据库日常操作中,INSERT INTO SELECT是实现 “批量数据迁移” 的核心 SQL 语句 —— 它能直接将一个表(或查询结果集)的数 ...
2025-10-16在机器学习建模中,“参数” 是决定模型效果的关键变量 —— 无论是线性回归的系数、随机森林的树深度,还是神经网络的权重,这 ...
2025-10-16在数字化浪潮中,“数据” 已从 “辅助决策的工具” 升级为 “驱动业务的核心资产”—— 电商平台靠用户行为数据优化推荐算法, ...
2025-10-16在大模型从实验室走向生产环境的过程中,“稳定性” 是决定其能否实用的关键 —— 一个在单轮测试中表现优异的模型,若在高并发 ...
2025-10-15在机器学习入门领域,“鸢尾花数据集(Iris Dataset)” 是理解 “特征值” 与 “目标值” 的最佳案例 —— 它结构清晰、维度适 ...
2025-10-15在数据驱动的业务场景中,零散的指标(如 “GMV”“复购率”)就像 “散落的零件”,无法支撑系统性决策;而科学的指标体系,则 ...
2025-10-15在神经网络模型设计中,“隐藏层层数” 是决定模型能力与效率的核心参数之一 —— 层数过少,模型可能 “欠拟合”(无法捕捉数据 ...
2025-10-14在数字化浪潮中,数据分析师已成为企业 “从数据中挖掘价值” 的核心角色 —— 他们既要能从海量数据中提取有效信息,又要能将分 ...
2025-10-14在企业数据驱动的实践中,“指标混乱” 是最常见的痛点:运营部门说 “复购率 15%”,产品部门说 “复购率 8%”,实则是两者对 ...
2025-10-14在手游行业,“次日留存率” 是衡量一款游戏生死的 “第一道关卡”—— 它不仅反映了玩家对游戏的初始接受度,更直接决定了后续 ...
2025-10-13分库分表,为何而生? 在信息技术发展的早期阶段,数据量相对较小,业务逻辑也较为简单,单库单表的数据库架构就能够满足大多数 ...
2025-10-13在企业数字化转型过程中,“数据孤岛” 是普遍面临的痛点:用户数据散落在 APP 日志、注册系统、客服记录中,订单数据分散在交易 ...
2025-10-13在数字化时代,用户的每一次行为 —— 从电商平台的 “浏览→加购→购买”,到视频 APP 的 “打开→搜索→观看→收藏”,再到银 ...
2025-10-11在机器学习建模流程中,“特征重要性分析” 是连接 “数据” 与 “业务” 的关键桥梁 —— 它不仅能帮我们筛选冗余特征、提升模 ...
2025-10-11在企业的数据体系中,未经分类的数据如同 “杂乱无章的仓库”—— 用户行为日志、订单记录、商品信息混杂存储,CDA(Certified D ...
2025-10-11在 SQL Server 数据库操作中,“数据类型转换” 是高频需求 —— 无论是将字符串格式的日期转为datetime用于筛选,还是将数值转 ...
2025-10-10在科研攻关、工业优化、产品开发中,正交试验(Orthogonal Experiment)因 “用少量试验覆盖多因素多水平组合” 的高效性,成为 ...
2025-10-10在企业数据量从 “GB 级” 迈向 “PB 级” 的过程中,“数据混乱” 的痛点逐渐从 “隐性问题” 变为 “显性瓶颈”:各部门数据口 ...
2025-10-10在深度学习中,“模型如何从错误中学习” 是最关键的问题 —— 而损失函数与反向传播正是回答这一问题的核心技术:损失函数负责 ...
2025-10-09本文将从 “检验本质” 切入,拆解两种方法的核心适用条件、场景边界与实战选择逻辑,结合医学、工业、教育领域的案例,让你明确 ...
2025-10-09