京公网安备 11010802034615号
经营许可证编号:京B2-20210330
很多小伙伴都计划年后换工作,为了帮助各位学习数据分析的小伙伴们成功拿到offer!本期给大家整理了一些数据分析面试时的高频问题,希望大家积极点赞收藏加关注,一起冲鸭~
1、APP近期上线了一个拉新活动,并在各个渠道进行了推广投放,如何评估活动效果?
【参考答案】
如果要对一个活动效果进行分析,无非是要回答以下3个问题:
(1)活动效果怎么样?要不要继续做?
(2)如果可以继续做,活动的做的好的方面是哪些?问题或者瓶颈环节在哪?
(3)针对问题环节的改进方案是什么?
具体展开来讲,可以从以下几个方面:
(1)活动关键指标达成分析
活动关键核心指标达成情况,比如拉新多少用户,达成多少GMV?ROI如何?
(2)活动关键流程漏斗分析
活动的关键流程是什么?以及各个流程的漏斗分析,定位问题发生的环节。
(3)活动的渠道、用户分析
活动在哪些渠道推送?活动推送给哪些用户?用户画像是啥样的?各渠道用户的质量/ROI如何?
(4)活动策略、节奏分析
活动玩法的裂变效果如何?利益点是否有吸引力?活动整个过程节奏把控如何,前期预热、中期爆发和尾期是否过短/过长,运营应该在何时进行适当干预。
2、业务场景题,如何分析次日留存率下降的问题
【参考答案】
业务问题关键是问对问题,然后才是拆解问题去解决。
(1)两层模型
从用户画像、渠道、产品、行为环节等角度细分,明确到底是哪里的次日留存率下降了
(2)指标拆解
次日留存率 = Σ 次日留存数 / 今日获客人数
(3)原因分析
内部:运营活动、产品变动、技术故障、设计漏洞(如产生可以撸羊毛的设计)
外部:竞品、用户偏好、节假日、社会事件(如产生舆论)
3、谈谈RFM用户模型
【参考答案】
RFM模型是客户关系管理(CRM)中一种被广泛使用的营销模型,它是衡量客户价值和客户创利能力的重要工具和手段。
RFM模型主要通过3个指标来描述一个客户的价值:
✅ 最近一次消费时间(Recency),缩写为R
✅ 消费频次(Frequency),缩写为F
✅ 消费金额(Monetary),缩写为M
在具体的应用中,一般是通过R、F、M这3项值将买家进行分层,卖家可以对不同层级的用户采取不同的营销方式~
利用RFM模型划分用户层级,可以进行客户细分、寻找目标客户:
⭕重要价值客户,RFM都很大,优质客户,需要保持
⭕重要发展客户,低活高购高价值,交易金额和交易次数大,但最近无交易。需要发展
⭕重要保持客户,高活低购高价值,交易金额大贡献度高,且最近有交易。需要重点识别
⭕重要挽留客户,低活低购高价值:交易金额大,潜在的有价值客户,需要挽留、促活。
这一模型的【优点】:
✔能够快速对某段时间内的付费用户做用户分类,响应快速的业务需求;
✔能直观了解用户消费的质量,短时间监控大客户的流失情况,及时做出挽回应对措施;
✔能及时发现新的大客户,比如频次低但额度大的用户。
4、什么是假设检验?
【参考答案】
参数估计和假设检验是统计推断的两个组成部分,它们都是利用样本对总体进行某种推断,但推断的角度不同。
(1)参数估计讨论的是用样本估计总体参数的方法,总体参数μ在估计前是未知的。
(2)而在假设检验中,则是先对μ的值提出一个假设,然后利用样本信息去检验这个假设是否成立。
5、 置信度、置信区间
【参考答案】
置信区间是我们所计算出的变量存在的范围,水平就是我们对于这个数值存在于我们计算出的这个范围的可信程度。
(1)举例来讲,有95%的把握,真正的数值在我们所计算的范围里。在这里,95%是置信水平,而计算出的范围,就是置信区间。
(2)如果置信度为95%, 则抽取100个样本来估计总体的均值,由100个样本所构造的100个区间中,约有95个区间包含总体均值。
6、 扑克牌54张,平均分成2份,求这2份都有2张A的概率
【参考答案】
这个问题可以通过计算概率来解决:
有2张A的概率可以通过组合来计算,即从4张A中选取2张A的组合数除以从54张牌中选取2张的组合数:P(2张A) = C(4, 2) / C(54, 2) 其中,C(n, m)表示从n个元素中选取m个元素的组合数。
我们需要将剩下的52张牌平均分成2份,每份26张。其中,有2张A的概率可以表示为:P(2张A) = P(1份有2张A,另1份没有A) + P(1份没有A,另1份有2张A) 假设第一份有2张A,第二份没有A,那么从剩下的50张牌中选出24张牌来组成第一份,剩下的26张牌自然组成第二份。这种情况的概率为:P(1份有2张A,另1份没有A) = C(4, 2) * C(50, 24) / C(54, 26)
(3)同样的道理,当第一份没有A,第二份有2张A时,这种情况的概率也是:P(1份没有A,另1份有2张A) = C(4, 0) * C(50, 26) / C(54, 26)
(4)最后,将两种情况的概率相加即可得到答案:P(两份都有2张A) = P(1份有2张A,另1份没有A) + P(1份没有A,另1份有2张A)代入计算,即可得到最终的概率。
7、做过AB test吗,谈谈原理?
【参考答案】
ABtest的本质其实是两个总体的假设检验问题。这个测试很多教育机构作业帮、学而思等经常用,用来测试哪些课程组合比较受欢迎等。当我们现在有两种方案,方案A和方案B,我们想要知道哪种方案更好,那我们就要做ABtest,也就是要做假设检验。
✅假设检验的步骤如下:
(1) 根据检验目的,构造原假设和备择假设
(2) 构造检验统计量
(3)给出显著性水平,根据样本数据,计算检验统计量的值.
(4)得出检验的结果,拒绝原假设还是没有充分的理由拒绝原假设
✅AB test具体场景问题:
AB test效果不显著,你该怎么判断这个实验的收益?
AB test中实验组核心指标明显优于对照组,那么这个优化就一定能够上线嘛?
AB test时效果显著,但是全量上线时,效果平平,问题在哪里?
AB test效果不显著时,那么是否可以判断这个实验失败了,没有意义?
一般的AB test场景问题都可以从以下几个理由中得到解释:辛普森悖论、新奇效应、以偏盖全、以全盖偏、正交互斥实验。
8、APP激活量的来源渠道很多,怎样对来源渠道变化大的进行预警?
【参考答案】
(1)如果渠道使用时间较长,认为渠道的app激活量满足一个分布,比较可能是正态分布。求平均值和标准差,对 于今日数值与均值差大于3/2/1个标准差的渠道进行预警。
(2)对于短期的新渠道,直接与均值进行对比。
9、用户刚进来APP的时候会选择属性,怎样在保证有完整用户信息的同时让用户流失减少?
【参考答案】
可以采用技术接受模型(TAM)来分析,影响用户接受选择属性这件事的主要因素有:
(1)感知的有用性(perceived usefulness),反映一个人认为使用一个具体的系统对他工作业绩提高的程度; 感知有用性:文案告知用户选择属性能给用户带来的好处
(2)感知的易用性(perceived ease of use),反映一个人认为容易使用一个具体的系统的程度。
感知易用性: a. 关联用户第三方账号 (如微博),可以冷启动阶段匹配用户更有可能选择的属性,推荐用户选择。b. 交互性做好。
(3)使用者态度:用户对填写信息的态度 a. 这里需要允许用户跳过,后续再提醒用户填写 b. 告知用户填写的信息会受到很好的保护
(4)行为意图:用户使用APP的目的性,难以控制
(5)外部变量:如操作时间、操作环境等,这里难以控制
10、卖玉米如何提高收益?价格提高多少才能获取最大收益?
【参考答案】
根据公式收益 = 单价*销售量,那么我们的策略是提高单位溢价或者提高销量。
(1) 提高单位溢价的方法:
品牌打造获得长期溢价,但缺陷是需要大量前期营销投入;
加工商品占据价值链更多环节,如熟玉米、玉米汁、玉米蛋白粉;
(2)重定位商品,如礼品化等;
价格歧视,根据价格敏感度对不同用户采用不同定价。
销售量=流量x转化率,上述提高单位溢价的方法可能对流量产生影响,也可能对转化率产生影响。
收益 = 单价x流量x转化率,短期内能规模化采用的应该是进行价格歧视,如不同时间、不同商圈的玉米价格不同,采取高定价,然后对价格敏感的用户提供优惠券等。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在使用Excel透视表进行数据汇总分析时,我们常遇到“需通过两个字段相乘得到关键指标”的场景——比如“单价×数量=金额”“销量 ...
2025-11-14在测试环境搭建、数据验证等场景中,经常需要将UAT(用户验收测试)环境的表数据同步到SIT(系统集成测试)环境,且两者表结构完 ...
2025-11-14在数据驱动的企业中,常有这样的困境:分析师提交的“万字数据报告”被束之高阁,而一张简洁的“复购率趋势图+核心策略标注”却 ...
2025-11-14在实证研究中,层次回归分析是探究“不同变量组对因变量的增量解释力”的核心方法——通过分步骤引入自变量(如先引入人口统计学 ...
2025-11-13在实时数据分析、实时业务监控等场景中,“数据新鲜度”直接决定业务价值——当电商平台需要实时统计秒杀订单量、金融系统需要实 ...
2025-11-13在数据量爆炸式增长的今天,企业对数据分析的需求已从“有没有”升级为“好不好”——不少团队陷入“数据堆砌却无洞察”“分析结 ...
2025-11-13在主成分分析(PCA)、因子分析等降维方法中,“成分得分系数矩阵” 与 “载荷矩阵” 是两个高频出现但极易混淆的核心矩阵 —— ...
2025-11-12大数据早已不是单纯的技术概念,而是渗透各行业的核心生产力。但同样是拥抱大数据,零售企业的推荐系统、制造企业的设备维护、金 ...
2025-11-12在数据驱动的时代,“数据分析” 已成为企业决策的核心支撑,但很多人对其认知仍停留在 “用 Excel 做报表”“写 SQL 查数据” ...
2025-11-12金融统计不是单纯的 “数据计算”,而是贯穿金融业务全流程的 “风险量化工具”—— 从信贷审批中的客户风险评估,到投资组合的 ...
2025-11-11这个问题很有实战价值,mtcars 数据集是多元线性回归的经典案例,通过它能清晰展现 “多变量影响分析” 的核心逻辑。核心结论是 ...
2025-11-11在数据驱动成为企业核心竞争力的今天,“不知道要什么数据”“分析结果用不上” 是企业的普遍困境 —— 业务部门说 “要提升销量 ...
2025-11-11在大模型(如 Transformer、CNN、多层感知机)的结构设计中,“每层神经元个数” 是决定模型性能与效率的关键参数 —— 个数过少 ...
2025-11-10形成购买决策的四个核心推动力的是:内在需求驱动、产品价值感知、社会环境影响、场景便捷性—— 它们从 “为什么买”“值得买吗 ...
2025-11-10在数字经济时代,“数字化转型” 已从企业的 “可选动作” 变为 “生存必需”。然而,多数企业的转型仍停留在 “上线系统、收集 ...
2025-11-10在数据分析与建模中,“显性特征”(如用户年龄、订单金额、商品类别)是直接可获取的基础数据,但真正驱动业务突破的往往是 “ ...
2025-11-07在大模型(LLM)商业化落地过程中,“结果稳定性” 是比 “单次输出质量” 更关键的指标 —— 对客服对话而言,相同问题需给出一 ...
2025-11-07在数据驱动与合规监管双重压力下,企业数据安全已从 “技术防护” 升级为 “战略刚需”—— 既要应对《个人信息保护法》《数据安 ...
2025-11-07在机器学习领域,“分类模型” 是解决 “类别预测” 问题的核心工具 —— 从 “垃圾邮件识别(是 / 否)” 到 “疾病诊断(良性 ...
2025-11-06在数据分析中,面对 “性别与购物偏好”“年龄段与消费频次”“职业与 APP 使用习惯” 这类成对的分类变量,我们常常需要回答: ...
2025-11-06