京公网安备 11010802034615号
经营许可证编号:京B2-20210330
大数据应用实践,硕果累累
去年5月笔者曾撰文阐述百度、阿里和腾讯这三个互联网巨无霸开始挖掘大数据。一年过去,拥有海量数据的公司已在多个领域尝试对掌握的数据进行利用,大数据意识和能力进步飞快,体系和工具日趋成熟。
大数据应用实践,硕果累累
百度在大数据方面让人印象深刻的有百度迁徙这样的公益项目,应用在民生和新闻等领域。最新动态是,百度网盟利用基于大数据的CTR(广告内容匹配)数据,站长的平均收入提升70%。
阿里则对外宣称已经拥有100PB数据并以令人欣喜的速度增长,马云最新的内部邮件将阿里战略阐述为云端+大数据,阿里要进入数据时代。
腾讯广点通平台不乏亮点应用,例如美丽说借助广点通在移动端取得丰收,小米手机与QQ空间合作更是基于社交数据营销的经典。
百度、阿里均已将大数据升级为公司战略,李彦宏、雷军等互联网代表人物在两会时都曾有建言,推动政府的大数据意识和开放,大数据正在从理论走向实践,从专业领域走向全民应用的阶段。
互联网牵头大数据的必然性
为什么国内的大数据应用,只有几个互联网巨头取得成就呢?是因为它们拥有最多的用户、流量和数据吗?答案是否定的。因为所有关于大数据的论断都认为,大数据并不在于大。质量、性质以及谁拥有它,将决定大数据能被挖掘出来的价值和难度。
物联网传感器、视频监控设备时时刻刻都在收集海量数据,但价值没有微博大,因为数据难以变现。运营商拥有用户通信相关数据,从语音到短信再到位置,量大过任何一个互联网巨头。只能白白浪费,因为运营商不被允许也无能力去利用这些数据。与之类似,政府部门、软件企业均拥有大数据,却只能任其沉睡。
之所以BAT走在国内大数据应用的前列,即与其拥有的数据性质有管,与互联网企业的技术基因、开放创新和积极进取有关。
大数据利用难点在于技术。从数据的收集到存储到清洗,再到脱敏,归类,标签化、结构化,以及最后的建模分析、挖掘利用,均是技术活儿。需要服务器集群、数据利用模型和数据处理算法来保障,然后才是挖掘出来的结果的包装、变现。
相对其他拥有大数据的金主来说,互联网企业的技术甩开它们几条街。运营商技术是外包;银行的技术外包居多;其他公共部门例如政府、交通、教育、能源等行业,技术对他们是遥远的名词。
还有动机。互联网企业的服务产品几乎是免费,必须通过其他模式赚钱。过去是广告、游戏和增值这三种模式,到了移动端广告模式遇到瓶颈,需要新模式,抑或加强原有模式。这两点上,大数据都会起到大的作用。
BAT大数据思路迥异
BAT三家的数据各有特色。
百度是基于用户搜索行为的需求数据,阿里掌握着交易以及信用数据,腾讯则掌握着社交关系数据。各有千秋。它们对大数据的应用方向并不相同。百度和阿里更为激进。腾讯观望多过行动,也可能是说得少做得多。
首先是动机。
百度收入95%以上来自广告,淘宝的主要收入模式也是广告。百度、淘宝和CCTV是中国前三大广告投放阵地。腾讯主要收入来自游戏和社交增值业务,广告收入占比仅为三成左右。
本阶段大数据变现的主要途径是精准广告,这契合百度和阿里的诉求,两家将大数据升级为公司战略。
其次是技术。
搜索引擎是技术驱动,百度和其创始人李彦宏最具技术基因。马云对外宣称因为其不懂技术所以阿里技术最强。只有腾讯不怎么强调技术,一直强调产品能力。
大数据是技术活儿,百度和阿里这两位自认为技术很强的玩家探索在先符合常理。百度和阿里在大数据技术已经进行较多布局,从人才到架构到基础设施再到技术理论。
百度有深度学习研究院、高价聘请大数据领域人才以及与高校合作,正在建设亚洲最大云计算机房;阿里有飞天计划,有先进的跨机房5k集群、Apsara分布式计算系统,还有数据委员会这样的架构。
几家在云计算平台上的不同态度可以佐证我的观点。云平台和大数据是连体婴。“移动端”、合作伙伴和用户个人的数据,均需要“云”来收集、存储和处理。要掌握大数据,一定要具备承载数据的开放的云。
阿里云09年成立,百度云12年推出,分别对应到IaaS模式和PaaS(Amazon VS Google)。它们的云服务在向开发者和用户提供基础设施、云端服务的同时,收集第三方网站、应用、硬件和用户的数据。百度迁徙能够生效便是得益于第三方App为百度贡献位置数据。
腾讯云去年9月才推出,起步晚了点。虽然腾讯开放平台成熟,但开放平台更多是分享腾讯的用户和资源出来,目的不是收集数据。而且开放平台是运营、合作、生态层面的事,云平台才是技术问题。
最后是位置。
典型的互联网交易场景大概是这样的,用户在聊天、社交、娱乐的过程中,会被吸引注意力,关注“兴趣”,抑或因为兴趣而发现新的信息。然后用户去了解、去寻找想要的东西(需求、欲望、找到所求),最后在网上完成交易(电商和O2O)。
这里引用一下漏斗模型——一个悠久经典的营销概念。在这个模型里,用户消费时的大致决策路径是从注意(attention)、兴趣(interest)、欲望(desire)最后到行动(action)。
上图是被倒过来的漏洞。漏斗越到底部转化率越高。阿里在欲望和行动之间,百度在兴趣和欲望之间,腾讯则在漏洞顶部。
广告收费模式可以看出三家的位置差异。百度是CPC,按照点击次数付费(不管点击后的行为),阿里淘宝客等广告则直接可以对应到购买行为,CPA(按实际效果)和CPS(按效果佣金)居多。腾讯门户、QQ聊天Banner广告更亲睐于CPM或者CPT(按照展示次数或者时长),广点通是CPA,但亮点案例集中在应用下载领域,而不是交易领域。
三家都不希望只处于某一个环节,而是期望上中下通吃。百度有贴吧这样的兴趣社交产品,有视频这种注意力型业务,还推出了直接在结果页下单的“微购”,上下延展;腾讯重组了搜索业务(与搜狗合并)和电商业务(与京东合并),向下的机会还有;阿里投资微博、布局智能电视以及做导购网站做微淘,努力在向上走。
几个互联网巨头的动机、技术和位置的不同,在大数据应用上的思路也不同:腾讯蜻蜓点水,阿里布局为先,百度技术至上。相同的是,几家都在想方设法笼络更多的数据,收集数据是第一阶段,形成收集数据的能力和机制是第二阶段,第三阶段才是数据挖掘,目前BAT三家均处于从第二阶段到第三阶段之间,一旦大数据应用全面进入第三阶段,积累更深、投入更多的百度或将有望显出优势。
AppStore和iPhone的诞生,将人们带入了智能手机和移动互联网时代,颠覆了传统的软件业和手机业。未来,对大数据商业价值的发掘将给互联网公司拓展出更大的增长空间,甚至有可能催生出全新的商业模式和硬件产品,就像AppStore和iPhone那样,给人们的工作和生活方式带来颠覆性的变化。
CDA学员免费下载查看报告全文:2026全球数智化人才指数报告【CDA数据科学研究院】.pdf
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在数据驱动运营的时代,指标是连接业务目标与实际行动的核心桥梁,是企业解读业务现状、发现问题、预判趋势的“量化标尺”。一套 ...
2026-05-08在存量竞争日趋激烈的商业时代,“以客户为中心”早已从口号落地为企业运营的核心逻辑。而客户画像作为打通“了解客户”与“服务 ...
2026-05-08 很多数据分析师每天与Excel打交道,但当被问到“什么是表格结构数据”“它和表结构数据有什么区别”“表格结构数据有哪些核 ...
2026-05-08在数据分析、计量研究等场景中,回归分析是探究变量间量化关系的核心方法,无论是简单的一元线性回归,还是复杂的多元线性回归、 ...
2026-05-07在数据分析、计量研究等场景中,回归分析是探究变量间量化关系的核心方法,无论是简单的一元线性回归,还是复杂的多元线性回归、 ...
2026-05-07 很多数据分析师画过趋势图、做过业绩预测,但当被问到“这个月销售额增长20%,到底是长期趋势自然增长,还是促销活动的短期 ...
2026-05-07在数字化时代,商业竞争的核心已从“经验驱动”转向“数据驱动”,越来越多的企业意识到,商业分析不是简单的数据统计与报表呈现 ...
2026-05-06在Excel数据透视表的实操中,“引用”是连接透视表与公式、辅助数据的核心操作,而相对引用作为最基础、最常用的引用方式,其设 ...
2026-05-06 很多数据分析师做过按月份的销售额趋势图,画过按天的流量折线图,但当被问到“时间序列和普通数据有什么本质区别”“季节性 ...
2026-05-06在Excel数据分析中,数据透视表是汇总、整理海量数据的高效工具,而公式则是实现数据二次计算、逻辑判断的核心功能。实际操作中 ...
2026-04-30Excel透视图是数据分析中不可或缺的工具,它能将透视表中的数据快速可视化,帮助我们直观捕捉数据规律、呈现分析结果。但在实际 ...
2026-04-30 很多数据分析师能熟练地计算指标、搭建标签体系,但当被问到“画像到底在解决什么问题”“画像和标签是什么关系”“画像如何 ...
2026-04-30在中介效应分析中,人口统计学变量(如年龄、性别、学历、收入、职业等)是常见的控制变量或调节变量,其处理方式直接影响分析结 ...
2026-04-29在SQL数据库实操中,日期数据的存储与显示是高频需求,而“数字日期”(如20240520、20241231、45321)是很多开发者、数据分析师 ...
2026-04-29 很多分析师在设计标签时思路清晰,但真到落地环节却面临“数据在手,不知如何转化为可用标签”的困境:或因加工方式选择不当 ...
2026-04-29在手游行业竞争日趋白热化的当下,“流量为王”早已升级为“留存为王”,而付费用户留存率更是衡量一款手游盈利能力、运营质量的 ...
2026-04-28在日常MySQL数据库运维与开发中,经常会遇到“同一台服务器上,两个不同数据库(以下简称“源库”“目标库”)的表数据需要保持 ...
2026-04-28 很多分析师每天和数据打交道,但当被问到“标签是什么”“标签和指标有什么区别”“标签体系如何设计”时,却常常答不上来。 ...
2026-04-28箱线图(Box Plot)作为一种经典的数据可视化工具,广泛应用于统计学、数据分析、科研实证等领域,核心价值在于直观呈现数据的集 ...
2026-04-27实证分析是社会科学、自然科学、经济管理等领域开展研究的核心范式,其核心逻辑是通过对多维度数据的收集、分析与解读,揭示变量 ...
2026-04-27