京公网安备 11010802034615号
经营许可证编号:京B2-20210330
小白学数据分析--日活跃人数分析
在数据分析的道路上走的崎岖坎坷,同时数据分析本身是一个多面和复杂的工作,要懂得理论(统计、概率、数据挖掘、算法、模型)更要懂得业务,懂得行业理论,还要有灵活多变的思维,想想还是很复杂和麻烦的,所讲内容不但是理论,不仅是数据,尽量把这些东西综合起来,立体的来看,鄙人水平有限,很多的内容是尝试和改进,参考了很多的材料,在木有高人指点和牛人帮助的情况下,我只能借助浩瀚的网络知识和自己的悟性,今天决心拿出来给各位主要是帮助大家和我一起进步。
第一天就从一份数据的分析开始,这里面涉及了很多的内容,大家需要慢慢理解。
案例:
某位网友提供了一份游戏的日活跃账号数的数据信息,游戏是从2011年9月份开始了测试,到2012年2月,但是产品究竟表现如何,从PLC(产品生命周期----《营销管理》)来看,产品目前处于一个什么时期,下一步怎么来做营销和运营工作,这是一个需要关注的问题。今天就从日活跃这个数据指标的解析上简单看看PLC的解读。
设计分析的数据指标有很多方面,总体来说就两块,收入+人气,我们就从对人气的分析上下手,考虑文章篇幅关系,今天单列每日活跃的分析过程,其他指标的把握和分析基本和此相同,大家可以自己尝试完成。

术语解释:
每日活跃用户(DAU):每日登录过游戏的玩家数量(重复登录者不累加)
IB:Item-Billing,游戏中通过游戏币交易流通的道具
APA:活跃付费账号数
PLC:产品生命周期-----《营销管理》
ARPU:平均每名玩家盈利能力
新登用户:每日注册成为游戏玩家的数量
每日有效活跃玩家:达到某一个指标(一般是在线时长)的日活跃玩家数量
每日有效新登用户:达到注册并成功登录进行过游戏的玩家数量
为什么要看每日活跃用户?
抛开游戏上线初期的推广营销因素影响后,版本随后会进入真正意义上的成长和发展阶段,这个阶段也是对于游戏品质和开始阶段投放影响的评估(当然这种靠推广的影响会存在一定的时效性,在对于DAU分析时,要抛开这个阶段)。每日活跃用户的变化说明以下的原因:
人气波动:建立每日活跃人数的弹性数值区间(阈值),当然这点的预警要按照每个月的具体情况来看,比如每个月的节日,假期,学生开学等其他因素的影响情况,建立一套因素影响指数,并作用于人气波动的预警。
趋势走向:综合一个阶段的日活跃变化情况,对于重大拐点和趋势进行分析,并预测下一个周期的变化形式。
产品质量:从日活跃的趋势变化和人气波动等其他因素综合看产品版本更新,活动设置等对于产品的PLC的影响,以及产品质量是否符合玩家的预期(质量的定义很广泛,这里比如IB设计,系统设计,交互体验等等)。
影响因素:正如刚才所言,我们综合一个周期的日活跃数据 和其他数据制定影响因素指数,便于宏观把控数据的变化,比如进入预警范围的数据究竟因为这些影响因素的影响有多大。做到心中有数。
当然,以上是简单的列举了一下日活跃用户参与的数据分析的几个方面和作用,对于数据分析千万不能局限在一个指标而进行所谓的分析,要全面的结合其他指标进行衡量和分析。比如新登用户,收入数据(充值,ARPU,APA等等)。

怎么来分析DAU?
如之前文章所说,我们主要运用曲线图和箱线图来分析DAU数据,如下图,使用IBM SPSS 19进行箱线图的分析(其详细过程以后在叙述)。
再次箱线图中涉及几个术语指标,先给各位再解释一下:
方差:度量随机变量和其数学期望(即均值)之间的偏离程度,测度数据变异(离散)程度的最重要的指标,方差是各个数据与其算术平均数的离差平方和的平均数,通常以σ2表示。方差的计量单位和量纲不便于从经济意义上进行解释,所以实际统计工作中多用方差的算术平方根——标准差来测度统计数据的差异程度。
方差和标准差也是根据全部数据计算的,它反映了每个数据与其均值相比平均相差的数值,因此它能准确地反映出数据的离散程度。比如,平均日活跃为A,通过方差判定整个这个月的DAU波动情况,以及距离A的离散程度。
期望:广义的来说,是指人们对每样东西的提前勾画出的一种标准,达到了这个标准就是达到了期望值。从概率论和统计学中,离散型随机变量的一切可能的取值xi与对应的概率Pi(=xi)之积的和称为该离散型随机变量的数学期望(设级数绝对收敛),记为E(x)),我们多数情况下只讨论离散型期望。
中位数:中位数是指将数据按大小顺序排列起来,形成一个数列,居于数列中间位置的那个数据。中位数用Me表示。
从中位数的定义可知,所研究的数据中有一半小于中位数,一半大于中位数。中位数的作用与算术平均数相近,也是作为所研究数据的代表值。在一个等差数列或一个正态分布数列中,中位数就等于算术平均数。
在数列中出现了极端变量值的情况下,用中位数作为代表值要比用算术平均数更好,因为中位数不受极端变量值的影响;如果研究目的就是为了反映中间水平,当然也应该用中位数。在统计数据的处理和分析时,可结合使用中位数。
四分位数:将数据划分为4个部分,每一个部分大约包含有1/4即25%的数据项。这种划分的临界点即为四分位数。它们定义如下:
Q1=第1四分位数,即第25百分位数;
Q2=第2四分位数,即第50百分位数;
Q3=第3四分位数,即第75百分位数。
四分位差:四分位差又称内距、也称四分间距(inter-quartile range),是指将各个变量值按大小顺序排列,然后将此数列分成四等份,所得第三个四分位上的值与第一个四分位上的值的差。四分位差用公式表示:
Q = Q3 − Q1
其中:Q1的位置=(n+1)/4
Q3的位置=3(n+1)/4
四分位差反映了中间50%数据的离散程度。其数值越小,说明中间的数据越集中;数值越大,说明中间的数据越分散。与极差(最大值与最小值之差)相比,四分位差不受极值的影响。此外,由于中位数处于数据的中间位置,因此四分位差的大小在一定程度上也说明了中位数对一组数据的代表程度。主要用于测度顺序数据的离散程度。当然,对于数值型数据也可以计算四分位差,但不适合于分类数据。
其以上的几个信息的示意图如下所示

下面我们从这个箱线图来分析一下DAU的近期变化情况

除了2012-Jan以外,都没有离群点或者极限值,相对而言,每个月游戏人数整体比较稳定,没有发生巨大的变化。而在2012-Jan出现了两个离群值,调查发现,是1月4日和1月5日出现的问题。经过CCU曲线分析,发现关键节点数据变化很小,但是24小时总体出现微下降,说明玩家4日和5日的活跃数据被稀释了,此外,通过对竞品的分析发现4日和5日有线上领取活动,再者,节后两天学生基本需要返校和白领休假归来,造成数据暂时下滑。
此外,我们拿到分析数据和上图来看,12年二月份和11年9月份的中位数较高,说明这段时间内的平均日活跃相对于本月来说较高,这可以看出这段时间内,游戏内的用户上线较为频繁(当然此处要结合PCU,在线时长来看更加准确)。
9月份为开始测试的月份,而2月份为假期阶段,因此玩家上线的意愿相对来说会比较高一些。这也是在意料之中的情况。

然而11年的11月份和12月份,中位数偏低,玩家上线意愿不够强烈,11月份已经非常低了,主要原因在于这一时期玩家进入考试周期,四六级,中期考试等等,属于淡季阶段。
11年10月份国庆节期间,玩家上线意愿还算不错,但是没有达到理想的效果,中位数低于平均水平,因此国庆假期的活动或者推广效果不是非常理想,间接也导致了下个月下滑的非常迅速,因此下次节日活动需要进行重新评估和调整。数据如下:

对于12年一月份的表现算是情理中,今年由于1月份过年,然而过年7天玩家的游戏时间其实是缩水的,没有太多精力投入游戏,但是从箱线图来看,表现还算正常。高于平均水平,活动效果应该比较不错,一月份虽然出现了两个离群值,但是一月份的标准差是最小的,也就是说一月份整体的活跃趋势稳定,没有大的波动。

总体来看,如果要考察PLC,需要结合收益数据,以及其他的诸如ACU,PCU,新登等数据来综合看待PLC,但是从DAU来看(狭义来说),人气在几个月来保持相对的稳定,但是整体上经历了小幅的下滑,换个角度说,这款产品存在一些问题,人气持续稳中有降,可以说玩家度过初级的新手期后,中间的成长、竞争、追求阶段出现了问题,诉求不能满足,导致人气下滑。更加详细具体的原因需要更多的数据综合分析。
注:以上分析皆建立在与数据的对比之上和其他辅助的数据综合分析上,当分析者单纯观察一段数据时,不能通过中位数高低轻易下定论认为用户上线频繁与否。需要考虑很多的客观因素。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在 MySQL 实际应用中,“频繁写入同一表” 是常见场景 —— 如实时日志存储(用户操作日志、系统运行日志)、高频交易记录(支付 ...
2025-10-30为帮助教育工作者、研究者科学分析 “班级规模” 与 “平均成绩” 的关联关系,我将从相关系数的核心定义与类型切入,详解 “数 ...
2025-10-30对 CDA(Certified Data Analyst)数据分析师而言,“相关系数” 不是简单的数字计算,而是 “从业务问题出发,量化变量间关联强 ...
2025-10-30在构建前向神经网络(Feedforward Neural Network,简称 FNN)时,“隐藏层数目设多少?每个隐藏层该放多少个神经元?” 是每个 ...
2025-10-29这个问题切中了 Excel 用户的常见困惑 —— 将 “数据可视化工具” 与 “数据挖掘算法” 的功能边界混淆。核心结论是:Excel 透 ...
2025-10-29在 CDA(Certified Data Analyst)数据分析师的工作中,“多组数据差异验证” 是高频需求 —— 例如 “3 家门店的销售额是否有显 ...
2025-10-29在数据分析中,“正态分布” 是许多统计方法(如 t 检验、方差分析、线性回归)的核心假设 —— 数据符合正态分布时,统计检验的 ...
2025-10-28箱线图(Box Plot)作为展示数据分布的核心统计图表,能直观呈现数据的中位数、四分位数、离散程度与异常值,是质量控制、实验分 ...
2025-10-28在 CDA(Certified Data Analyst)数据分析师的工作中,“分类变量关联分析” 是高频需求 —— 例如 “用户性别是否影响支付方式 ...
2025-10-28在数据可视化领域,单一图表往往难以承载多维度信息 —— 力导向图擅长展现节点间的关联结构与空间分布,却无法直观呈现 “流量 ...
2025-10-27这个问题问到了 Tableau 中两个核心行级函数的经典组合,理解它能帮你快速实现 “相对位置占比” 的分析需求。“index ()/size ( ...
2025-10-27对 CDA(Certified Data Analyst)数据分析师而言,“假设检验” 绝非 “套用统计公式的机械操作”,而是 “将模糊的业务猜想转 ...
2025-10-27在数字化运营中,“凭感觉做决策” 早已成为过去式 —— 运营指标作为业务增长的 “晴雨表” 与 “导航仪”,直接决定了运营动作 ...
2025-10-24在卷积神经网络(CNN)的训练中,“卷积层(Conv)后是否添加归一化(如 BN、LN)和激活函数(如 ReLU、GELU)” 是每个开发者都 ...
2025-10-24在数据决策链条中,“统计分析” 是挖掘数据规律的核心,“可视化” 是呈现规律的桥梁 ——CDA(Certified Data Analyst)数据分 ...
2025-10-24在 “神经网络与卡尔曼滤波融合” 的理论基础上,Python 凭借其丰富的科学计算库(NumPy、FilterPy)、深度学习框架(PyTorch、T ...
2025-10-23在工业控制、自动驾驶、机器人导航、气象预测等领域,“状态估计” 是核心任务 —— 即从含噪声的观测数据中,精准推断系统的真 ...
2025-10-23在数据分析全流程中,“数据清洗” 恰似烹饪前的食材处理:若食材(数据)腐烂变质、混杂异物(脏数据),即便拥有精湛的烹饪技 ...
2025-10-23在人工智能领域,“大模型” 已成为近年来的热点标签:从参数超 1750 亿的 GPT-3,到万亿级参数的 PaLM,再到多模态大模型 GPT-4 ...
2025-10-22在 MySQL 数据库的日常运维与开发中,“更新数据是否会影响读数据” 是一个高频疑问。这个问题的答案并非简单的 “是” 或 “否 ...
2025-10-22