京公网安备 11010802034615号
经营许可证编号:京B2-20210330
大数据应用实践,硕果累累
去年5月笔者曾撰文阐述百度、阿里和腾讯这三个互联网巨无霸开始挖掘大数据。一年过去,拥有海量数据的公司已在多个领域尝试对掌握的数据进行利用,大数据意识和能力进步飞快,体系和工具日趋成熟。
大数据应用实践,硕果累累
百度在大数据方面让人印象深刻的有百度迁徙这样的公益项目,应用在民生和新闻等领域。最新动态是,百度网盟利用基于大数据的CTR(广告内容匹配)数据,站长的平均收入提升70%。
阿里则对外宣称已经拥有100PB数据并以令人欣喜的速度增长,马云最新的内部邮件将阿里战略阐述为云端+大数据,阿里要进入数据时代。
腾讯广点通平台不乏亮点应用,例如美丽说借助广点通在移动端取得丰收,小米手机与QQ空间合作更是基于社交数据营销的经典。
百度、阿里均已将大数据升级为公司战略,李彦宏、雷军等互联网代表人物在两会时都曾有建言,推动政府的大数据意识和开放,大数据正在从理论走向实践,从专业领域走向全民应用的阶段。
互联网牵头大数据的必然性
为什么国内的大数据应用,只有几个互联网巨头取得成就呢?是因为它们拥有最多的用户、流量和数据吗?答案是否定的。因为所有关于大数据的论断都认为,大数据并不在于大。质量、性质以及谁拥有它,将决定大数据能被挖掘出来的价值和难度。
物联网传感器、视频监控设备时时刻刻都在收集海量数据,但价值没有微博大,因为数据难以变现。运营商拥有用户通信相关数据,从语音到短信再到位置,量大过任何一个互联网巨头。只能白白浪费,因为运营商不被允许也无能力去利用这些数据。与之类似,政府部门、软件企业均拥有大数据,却只能任其沉睡。
之所以BAT走在国内大数据应用的前列,即与其拥有的数据性质有管,与互联网企业的技术基因、开放创新和积极进取有关。
大数据利用难点在于技术。从数据的收集到存储到清洗,再到脱敏,归类,标签化、结构化,以及最后的建模分析、挖掘利用,均是技术活儿。需要服务器集群、数据利用模型和数据处理算法来保障,然后才是挖掘出来的结果的包装、变现。
相对其他拥有大数据的金主来说,互联网企业的技术甩开它们几条街。运营商技术是外包;银行的技术外包居多;其他公共部门例如政府、交通、教育、能源等行业,技术对他们是遥远的名词。
还有动机。互联网企业的服务产品几乎是免费,必须通过其他模式赚钱。过去是广告、游戏和增值这三种模式,到了移动端广告模式遇到瓶颈,需要新模式,抑或加强原有模式。这两点上,大数据都会起到大的作用。
BAT大数据思路迥异
BAT三家的数据各有特色。
百度是基于用户搜索行为的需求数据,阿里掌握着交易以及信用数据,腾讯则掌握着社交关系数据。各有千秋。它们对大数据的应用方向并不相同。百度和阿里更为激进。腾讯观望多过行动,也可能是说得少做得多。
首先是动机。
百度收入95%以上来自广告,淘宝的主要收入模式也是广告。百度、淘宝和CCTV是中国前三大广告投放阵地。腾讯主要收入来自游戏和社交增值业务,广告收入占比仅为三成左右。
本阶段大数据变现的主要途径是精准广告,这契合百度和阿里的诉求,两家将大数据升级为公司战略。
其次是技术。
搜索引擎是技术驱动,百度和其创始人李彦宏最具技术基因。马云对外宣称因为其不懂技术所以阿里技术最强。只有腾讯不怎么强调技术,一直强调产品能力。
大数据是技术活儿,百度和阿里这两位自认为技术很强的玩家探索在先符合常理。百度和阿里在大数据技术已经进行较多布局,从人才到架构到基础设施再到技术理论。
百度有深度学习研究院、高价聘请大数据领域人才以及与高校合作,正在建设亚洲最大云计算机房;阿里有飞天计划,有先进的跨机房5k集群、Apsara分布式计算系统,还有数据委员会这样的架构。
几家在云计算平台上的不同态度可以佐证我的观点。云平台和大数据是连体婴。“移动端”、合作伙伴和用户个人的数据,均需要“云”来收集、存储和处理。要掌握大数据,一定要具备承载数据的开放的云。
阿里云09年成立,百度云12年推出,分别对应到IaaS模式和PaaS(Amazon VS Google)。它们的云服务在向开发者和用户提供基础设施、云端服务的同时,收集第三方网站、应用、硬件和用户的数据。百度迁徙能够生效便是得益于第三方App为百度贡献位置数据。
腾讯云去年9月才推出,起步晚了点。虽然腾讯开放平台成熟,但开放平台更多是分享腾讯的用户和资源出来,目的不是收集数据。而且开放平台是运营、合作、生态层面的事,云平台才是技术问题。
最后是位置。
典型的互联网交易场景大概是这样的,用户在聊天、社交、娱乐的过程中,会被吸引注意力,关注“兴趣”,抑或因为兴趣而发现新的信息。然后用户去了解、去寻找想要的东西(需求、欲望、找到所求),最后在网上完成交易(电商和O2O)。
这里引用一下漏斗模型——一个悠久经典的营销概念。在这个模型里,用户消费时的大致决策路径是从注意(attention)、兴趣(interest)、欲望(desire)最后到行动(action)。
上图是被倒过来的漏洞。漏斗越到底部转化率越高。阿里在欲望和行动之间,百度在兴趣和欲望之间,腾讯则在漏洞顶部。
广告收费模式可以看出三家的位置差异。百度是CPC,按照点击次数付费(不管点击后的行为),阿里淘宝客等广告则直接可以对应到购买行为,CPA(按实际效果)和CPS(按效果佣金)居多。腾讯门户、QQ聊天Banner广告更亲睐于CPM或者CPT(按照展示次数或者时长),广点通是CPA,但亮点案例集中在应用下载领域,而不是交易领域。
三家都不希望只处于某一个环节,而是期望上中下通吃。百度有贴吧这样的兴趣社交产品,有视频这种注意力型业务,还推出了直接在结果页下单的“微购”,上下延展;腾讯重组了搜索业务(与搜狗合并)和电商业务(与京东合并),向下的机会还有;阿里投资微博、布局智能电视以及做导购网站做微淘,努力在向上走。
几个互联网巨头的动机、技术和位置的不同,在大数据应用上的思路也不同:腾讯蜻蜓点水,阿里布局为先,百度技术至上。相同的是,几家都在想方设法笼络更多的数据,收集数据是第一阶段,形成收集数据的能力和机制是第二阶段,第三阶段才是数据挖掘,目前BAT三家均处于从第二阶段到第三阶段之间,一旦大数据应用全面进入第三阶段,积累更深、投入更多的百度或将有望显出优势。
AppStore和iPhone的诞生,将人们带入了智能手机和移动互联网时代,颠覆了传统的软件业和手机业。未来,对大数据商业价值的发掘将给互联网公司拓展出更大的增长空间,甚至有可能催生出全新的商业模式和硬件产品,就像AppStore和iPhone那样,给人们的工作和生活方式带来颠覆性的变化。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在当下数据驱动决策的职场环境中,A/B测试早已成为互联网产品、运营、营销乃至产品迭代优化的核心手段,小到一个按钮的颜色、文 ...
2026-03-24在统计学数据分析中,尤其是分类数据的分析场景里,卡方检验和显著性检验是两个高频出现的概念,很多初学者甚至有一定统计基础的 ...
2026-03-24在CDA(Certified Data Analyst)数据分析师的日常业务分析与统计建模工作中,多组数据差异对比是高频且核心的分析场景。比如验 ...
2026-03-24日常用Excel做数据管理、台账维护、报表整理时,添加备注列是高频操作——用来标注异常、说明业务背景、记录处理进度、补充关键 ...
2026-03-23作为业内主流的自助式数据可视化工具,Tableau凭借拖拽式操作、强大的数据联动能力、灵活的仪表板搭建,成为数据分析师、业务人 ...
2026-03-23在CDA(Certified Data Analyst)数据分析师的日常工作与认证考核中,分类变量的关联分析是高频核心场景。用户性别是否影响商品 ...
2026-03-23在数据工作的全流程中,数据清洗是最基础、最耗时,同时也是最关键的核心环节,无论后续是做常规数据分析、可视化报表,还是开展 ...
2026-03-20在大数据与数据驱动决策的当下,“数据分析”与“数据挖掘”是高频出现的两个核心概念,也是很多职场人、入门学习者容易混淆的术 ...
2026-03-20在CDA(Certified Data Analyst)数据分析师的全流程工作闭环中,统计制图是连接严谨统计分析与高效业务沟通的关键纽带,更是CDA ...
2026-03-20在MySQL数据库优化中,分区表是处理海量数据的核心手段——通过将大表按分区键(如时间、地域、ID范围)分割为多个独立的小分区 ...
2026-03-19在商业智能与数据可视化领域,同比、环比增长率是分析数据变化趋势的核心指标——同比(YoY)聚焦“长期趋势”,通过当前周期与 ...
2026-03-19在数据分析与建模领域,流传着一句行业共识:“数据决定上限,特征决定下限”。对CDA(Certified Data Analyst)数据分析师而言 ...
2026-03-19机器学习算法工程的核心价值,在于将理论算法转化为可落地、可复用、高可靠的工程化解决方案,解决实际业务中的痛点问题。不同于 ...
2026-03-18在动态系统状态估计与目标跟踪领域,高精度、高鲁棒性的状态感知是机器人导航、自动驾驶、工业控制、目标检测等场景的核心需求。 ...
2026-03-18“垃圾数据进,垃圾结果出”,这是数据分析领域的黄金法则,更是CDA(Certified Data Analyst)数据分析师日常工作中时刻恪守的 ...
2026-03-18在机器学习建模中,决策树模型因其结构直观、易于理解、无需复杂数据预处理等优势,成为分类与回归任务的首选工具之一。而变量重 ...
2026-03-17在数据分析中,卡方检验是一类基于卡方分布的假设检验方法,核心用于分析分类变量之间的关联关系或实际观测分布与理论期望分布的 ...
2026-03-17在数字化转型的浪潮中,企业积累的数据日益庞大且分散——用户数据散落在注册系统、APP日志、客服记录中,订单数据分散在交易平 ...
2026-03-17在数字化时代,数据分析已成为企业决策、业务优化、增长突破的核心支撑,从数据仓库搭建(如维度表与事实表的设计)、数据采集清 ...
2026-03-16在数据仓库建设、数据分析(尤其是用户行为分析、业务指标分析)的实践中,维度表与事实表是两大核心组件,二者相互依存、缺一不 ...
2026-03-16