京公网安备 11010802034615号
经营许可证编号:京B2-20210330
大”为“小”用--腾讯的大数据应用之道_数据分析师
时至今日,人们依然被大数据的概念牵着鼻子走,人人都在谈大数据,但并不是人人都能清晰地梳理企业在什么时候,哪些地方用到大数据。
在这一点上,腾讯对大数据的认识是正确的,“在建立大数据系统的时候,我们从来没有想过在做一个大数据项目,我们都是在解决实际的问题。”腾讯云总裁陈磊如是说。
从解决实际问题出发,不论是需要作出重大决策还是改变小小的设计,腾讯在利用大数据的时候有其自身的优势,那就是腾讯拥有海量的数据。业界有一种声音是忽略大数据的“大”,关注数据本身的价值,而在腾讯这里,“大”甚至无法回避。比如,根据腾讯云分析《2014年第二季度移动行业数据报告》的数据,接入腾讯云分析的APP覆盖设备超过15亿。
如果单个数字不足以说明什么,那么还有以下这几个数字:
即时通信QQ活跃帐户数达到8.29亿;
QQ智能终端月活跃帐户数5.21亿;
即时通信QQ最高同时在线帐户数达到2.06亿;
“微信和WeChat”合并月活跃帐户数达到4.38亿;
“QQ空间”月活跃帐户数达到6.45亿;
QQ空间智能终端月活跃帐户数4.97亿;(数据来源于网络)
探寻大数据先行者的足迹,腾讯是国内最具代表性的企业之一,而其对“大数据、小场景”的认知,更是在大数据的实际应用中走到了前列。
从一个小小的按钮说起
很多人无法将大数据概念和具体实践联系起来,是由于对大数据这一概念的“仰望”,好像大数据是突然有一天凭空生出来的一样。而事实上,“在大数据这个概念被包装出来之前,互联网公司就已经很认真地在使用相关的方法和技术,” 陈磊表示,“这些方法和技术实际上是一直应用在我们日常工作当中的。”
陈磊讲到腾讯在设计产品时的一个场景:“我们界面的设计都是在测试用户行为的基础之上进行的,我们很少凭空去想用户会喜欢什么样的设计。”比如在设计一个按钮时,其摆放的位置、包含的文字,包括颜色、形状这些都会做各种各样的尝试,而最后采用哪一个选择,要看用户在实际使用中对这个按钮的点击率。可以说,除了要在整体的风格上保持一致,很多设计都是以最终用户的行为作为依据的。
互联网是大数据最先改变的产业,这与互联网企业的文化也有关系。陈磊表示,互联网企业不认为通过自己的想法能够很准确地把握用户需求,而让用户去试的时候,用户会用他的行为投票。“所以互联网公司讲究摸着石头过河,最主要的原因是希望在不断尝试的过程当中,
通过大数据的方法来准确地把握用户需求,来指导一个按钮的设计,腾讯就是这样将大数据应用到这些小的场景中。实际上,腾讯对产品的每一个功能都会去做AB测试。
动态运营,将决策权交给用户
腾讯的很多产品版本更新非常快,由于每次新版本下发都需要用户去下载安装才能更新。这需要对每个产品都进行用户管理的研究:从用户开始使用这个产品,到这个产品的使用达到一个高峰,再到最后一些用户选择弃用,腾讯将这些环节叫做拉新、留存和流失。陈磊表示:“我们会分析流失客户的特征是什么。他在使用这个产品的时候,和在流失之前行为发生了哪些改变。通过用户使用产品的数据做了这样的分析之后,我们大致就能够理解某一类用户离开这个产品的主要原因,进而在产品上做一些改造,让这类用户对我们的产品更有黏性。这些都离不开数据和数据分析。”
产品在研发过程当中根据用户的使用习惯不停的调节,这个过程叫作“动态运营”.所谓动态运营的理念,将每一件事情都看作是一个小小的实验,或者将大项目分解为很多小的产品步骤,每一步都很小,这样每一步走对了或走错了,能够快速得到反馈。
陈磊说,过去很多企业运营的方法是先制订战略,然后根据战略去分解执行,半年之后总结执行情况。在今天,这种缓慢的应变机制是行不通的。
动态运营将产品更新的决策权交到用户手中,这就是业务前线化(FOT)中后段决策让位于分布式前端一线决策的例证。大数据为动态运营提供了有力支撑。
让广点通脱胎换骨
大数据对广点通影响可谓脱胎换骨,关键的一件事情就是对数据的实时处理和采用。据陈磊介绍,过去广点通只能将前一天的用户点击行为进行数据分析,在第二天来使用,显然无法满足广告业务的要求。在大数据的支撑下,腾讯逐步将分析方法变成相隔一个小时,15分钟,到最后做成只差几秒,数据就能够回流,并且能够在下一次给用户展示广告的时候去使用。
据悉,广点通不仅对数据的实时性要求非常高,对数据的准确性要求也一样。例如,一些用户填写的数据未必是真实的,在数据的采集和流转的过程中,对海量数据的保真提出了挑战。腾讯在应对数据的海量、精准和实时的挑战过程中研发了大量的产品。
为不同的用户做精准推荐
腾讯与小米曾有过两次合作,第一次是红米手机发布,在90秒钟订出十万部手机,第二次是红米Note开售,在第一秒的时间有41.9万次点击。从最后的结果上看,这两次活动做得非常成功,其背后除了小米营销策略的功劳之外,腾讯利用大数据找到对红米手机有潜在需求的用户并精准推荐也是原因之一。
另外一个案例是腾讯通过大数据的手段去运营《穿越火线》这款游戏。在这个游戏的热度开始下滑的时候,腾讯利用大数据做了大量的留存活动,这些活动是针对玩家喜欢这个游戏的原因去做的。陈磊介绍说:“比如一些玩家是因为有几个比较好的朋友经常组队去打游戏,那么我们通过好友邀请他,重温一下过去打游戏的好时光,让他再回来使用这个游戏;有一些用户把某一类武器玩得非常好,但是这个武器已经打到极致了,这时候我们就会创造新的武器。通过这样的方式来让用户持续玩这个游戏,要对这个用户的特点有很清楚的认知。”
精准推荐的前提是用户画像,在游戏领域的应用着实超出想象。据悉,腾讯微博建立SocialData体系挖掘社交大数据为用户画像。
腾讯的大数据服务
大数据的实现需要IT基础设施和工具的支撑,这里涉及很多技术方面的问题,腾讯很多的系统都是自主研发,比如数据采集的系统和任务调度的系统。至于其中的技术,并不是我们这次要探寻的重点,但这里还是要介绍腾讯的三类大数据服务,它们是腾讯在自身利用大数据以及用大数据服务客户过程中留下的坚实的足迹。
目前,腾讯通过腾讯云给客户提供三类免费的大数据服务:
TOD Tencent Open Data
Tencent Open Data是基于腾讯的大规模计算集群,提供数据采集、自助加工、任务调度等能力的云端大数据解决方案。其优势在于:不用采购任何物理设备,即开即用;不用担心数据量膨胀的时候无法扩展;只需要开发业务逻辑,其他部署、运行、监控都交给TOD.
例如,你可以用TOD分析apache访问日志,定义一个每天都执行的任务收集访问日志的有用信息,然后定义一个每周运行的任务汇总加工访问信息,最后定义一个数据导出任务将数据导出生成周报。TOD能够处理真实数据加工中各种不确定性因素。只要你设定了运行规则,TOD就可以确保任务流按照设定的规则运行。
信鸽
信鸽,是一款移动APP推送平台,支持亿级的通知/消息,能在Android/iOS平台进行各类高级自定义的推送操作,秒级触达移动终端用户。开发者可以方便地嵌入SDK,通过API调用可或视化操作界面,实现对特定用户发送通知/消息,提升用户活跃度,激活沉睡用户,并实时查看推送效果。
信鸽可为应用用户设置多种标签,包括地理位置、应用版本号、活跃度,更可结合行为的记录自定义为“在深圳喜爱川菜的女白领”,“超过7天未登录游戏的大学生”、“有高消费潜力的土豪”等。根据业务、用户行为等圈定不同用户群体并将其账号保存成号码包文件,通过信鸽前台上传,做特定的运营推广活动,达到精准触达用户的目的。
信鸽pro高级标签,可基于腾讯大数据优势,基于玩家的在线时长,使用频率,付费、登录行为,游戏关卡的失败率、道具使用购买统计等因子,建立流失用户预测模型与付费用户预测模型。模型可精准预测潜在流失与付费用户,预测覆盖率超过85%,准确率超过91%.利用信鸽对潜在流失用户群推送针对性的营销活动,回流率比随机推送提升120%.
MTA 腾讯云分析
腾讯云分析是专业的移动应用数据运营平台,支持iOS和Android.开发者可以方便地通过嵌入统计SDK,实现对移动应用的全面监测,实时掌握产品表现,准确洞察用户行为。前面我们已经提到,2014年第二季度报告中,接入腾讯云分析的APP覆盖设备超过15亿。
腾讯云分析的功能及优势包括:
(1)APP数据的收集:比如新增、活跃、留存、用户画像、渠道数据等等;
(2)行为分析:用户在使用APP的时候其实是一系列的过程,尤其像支付购买这样的操作,到底是中间那个环节导致用户流失,通过行为分析中的路径分析、页面来源就可以清楚的了解到,其次像用户在页面的停留时长、打开次数也会有统计;
(3)自定义事件和漏斗模型:帮助用户自主的去统计小到按钮的点击行为,完全可以自主控制,还可以将用户行为串联起来形成一条自主路径,观察用户的行为;
(4)错误管理:帮助开发者管理应用错误,找到错误根源,同时对于应用数据的突变支持通过微信服务号告警;
(5)专门的游戏分析:针对游戏应用这个庞大的群体,云分析推出专门的游戏分析,可以细致的分析到玩家在关卡、对战中的行为,充值、购买道具的行为。
腾讯云分析对开发者的作用主要有两方面:一是开发者可以通过自己的数据波动找到产品优化的方向,比如一款游戏,如果发现某个关卡用户流失严重,那是不是要优化关卡,或者推出游戏攻略、关卡奖励等活动;二是开发者可以通过数据知道自己运营效果,比如一款应用,在相关媒体网站上发送文章,引来一部分用户,引流的量是多少,是否和之前的的预期一样,效果会持续多久,这样就可以预估活动的频率和范围。
云分析其实还存在更大的潜力,就是对背后数据的挖掘,以信鸽pro为例,众所周知大部分的挽救留存率的方法都是亡羊补牢,用户已经开始流失了再去做活动,效果已经不明显了,如果可以在用户离开之前预测到他的行为,就可以极大提升留存,这里就涉及到用户行为的预测 ,而云分析的数据能力就体现在这里,先收集用户的行为数据,然后对用户行为进行分析,最后预测用户未来可能的动态,这样的数据对开发者来说才是具有最大价值的数据。
而目前在数据存储和计算方面云分析依托腾讯大数据的存储计算能力,可以达到秒级的实时数据更新,以腾讯视频好声音为例,日播放量峰值有近3亿,云分析依旧能支撑其数据的正常上报和计算处理。
据陈磊介绍,腾讯在大数据工具的开发的过程中使用了大量的开源技术,但是开源的技术无法满足腾讯对数据的实时性和海量处理的要求,所以对这些系统都进行了深入的改造。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在 MySQL 实际应用中,“频繁写入同一表” 是常见场景 —— 如实时日志存储(用户操作日志、系统运行日志)、高频交易记录(支付 ...
2025-10-30为帮助教育工作者、研究者科学分析 “班级规模” 与 “平均成绩” 的关联关系,我将从相关系数的核心定义与类型切入,详解 “数 ...
2025-10-30对 CDA(Certified Data Analyst)数据分析师而言,“相关系数” 不是简单的数字计算,而是 “从业务问题出发,量化变量间关联强 ...
2025-10-30在构建前向神经网络(Feedforward Neural Network,简称 FNN)时,“隐藏层数目设多少?每个隐藏层该放多少个神经元?” 是每个 ...
2025-10-29这个问题切中了 Excel 用户的常见困惑 —— 将 “数据可视化工具” 与 “数据挖掘算法” 的功能边界混淆。核心结论是:Excel 透 ...
2025-10-29在 CDA(Certified Data Analyst)数据分析师的工作中,“多组数据差异验证” 是高频需求 —— 例如 “3 家门店的销售额是否有显 ...
2025-10-29在数据分析中,“正态分布” 是许多统计方法(如 t 检验、方差分析、线性回归)的核心假设 —— 数据符合正态分布时,统计检验的 ...
2025-10-28箱线图(Box Plot)作为展示数据分布的核心统计图表,能直观呈现数据的中位数、四分位数、离散程度与异常值,是质量控制、实验分 ...
2025-10-28在 CDA(Certified Data Analyst)数据分析师的工作中,“分类变量关联分析” 是高频需求 —— 例如 “用户性别是否影响支付方式 ...
2025-10-28在数据可视化领域,单一图表往往难以承载多维度信息 —— 力导向图擅长展现节点间的关联结构与空间分布,却无法直观呈现 “流量 ...
2025-10-27这个问题问到了 Tableau 中两个核心行级函数的经典组合,理解它能帮你快速实现 “相对位置占比” 的分析需求。“index ()/size ( ...
2025-10-27对 CDA(Certified Data Analyst)数据分析师而言,“假设检验” 绝非 “套用统计公式的机械操作”,而是 “将模糊的业务猜想转 ...
2025-10-27在数字化运营中,“凭感觉做决策” 早已成为过去式 —— 运营指标作为业务增长的 “晴雨表” 与 “导航仪”,直接决定了运营动作 ...
2025-10-24在卷积神经网络(CNN)的训练中,“卷积层(Conv)后是否添加归一化(如 BN、LN)和激活函数(如 ReLU、GELU)” 是每个开发者都 ...
2025-10-24在数据决策链条中,“统计分析” 是挖掘数据规律的核心,“可视化” 是呈现规律的桥梁 ——CDA(Certified Data Analyst)数据分 ...
2025-10-24在 “神经网络与卡尔曼滤波融合” 的理论基础上,Python 凭借其丰富的科学计算库(NumPy、FilterPy)、深度学习框架(PyTorch、T ...
2025-10-23在工业控制、自动驾驶、机器人导航、气象预测等领域,“状态估计” 是核心任务 —— 即从含噪声的观测数据中,精准推断系统的真 ...
2025-10-23在数据分析全流程中,“数据清洗” 恰似烹饪前的食材处理:若食材(数据)腐烂变质、混杂异物(脏数据),即便拥有精湛的烹饪技 ...
2025-10-23在人工智能领域,“大模型” 已成为近年来的热点标签:从参数超 1750 亿的 GPT-3,到万亿级参数的 PaLM,再到多模态大模型 GPT-4 ...
2025-10-22在 MySQL 数据库的日常运维与开发中,“更新数据是否会影响读数据” 是一个高频疑问。这个问题的答案并非简单的 “是” 或 “否 ...
2025-10-22