
注意:这是本文的第二部分。你可以在这里阅读第一部分。
当产品发生变化时,人们对它的反应会有所不同。有些人习惯于产品的工作方式,不愿意改变。这被称为首要效应或改变厌恶。其他人可能会欢迎变化,一个新功能吸引他们更多地使用产品。这被称为新奇效应。然而,这两种影响都不会持续很长时间,因为人们的行为在一定时间后会稳定下来。如果a/B测试有较大或较小的初始效应,这可能是由于新的或首要效应。这是实践中常见的问题,很多面试问题都是关于这个话题的。一个面试样本问题是:
我们在一个新特性上运行了一个a/B测试,测试成功了,所以我们向所有用户启动了这个更改。然而,在推出该特性一周后,我们发现治疗效果迅速下降。怎么回事?
答案是新奇效应。随着时间的推移,随着新鲜感的消退,重复使用会减少,所以我们观察到治疗效果下降。
现在您理解了新奇和首要效应,我们如何解决潜在的问题?这是面试中典型的跟进问题。
处理这种影响的一个方法是完全排除那些影响的可能性。我们可以只对首次用户运行测试,因为新奇效应和首要效应显然不会影响这类用户。如果我们已经进行了测试,并且我们想要分析是否有新颖性或首要效应,我们可以(1)将控制组新用户的结果与治疗组的结果进行比较,以评估新颖性效应(2)将第一次用户的结果与治疗组现有用户的结果进行比较,以获得新颖性或首要效应影响的实际估计。
在A/B试验的最简单形式中,有两种变体:对照(A)和治疗(B)。有时,我们运行一个测试与多个变体,看看哪一个是最好的所有功能。当我们要测试一个按钮的多种颜色或测试不同的主页时,可能会发生这种情况。然后我们会有不止一个治疗组。在这种情况下,我们不应该简单地使用0.05的相同显著性水平来决定检验是否显著,因为我们处理的是2个以上的变异体,错误发现的概率增加。例如,如果我们有3个治疗组与对照组进行比较,观察到至少1个假阳性的机会是多少(假设我们的显著性水平是0.05)?
我们可以得到没有假阳性的概率(假设组是独立的),
PR(FP=0)=0.95*0.95*0.95=0.857
然后获得至少有1个假阳性的概率
Pr(FP>=1)=1-Pr(FP=0)=0.143
只有3个治疗组(4个变异),假阳性(或I型错误)的概率超过14%。这称为“多重测试”问题。一个面试问题是
我们正在运行一个测试与10个变体,尝试我们的登陆页面的不同版本。1个处理获胜,P值小于0.05。你能改变吗?
答案是否定的,因为多重测试问题。有几种方法来接近它。一种常用的方法是Bonferroni校正。它将显著性水平0.05除以试验次数。对于面试问题,既然我们测量了10个测试,那么测试的显著性水平应该是0.05除以10等于0.005。基本上,只有当检验的p值小于0.005时,我们才声称检验是显著的。Bonferroni校正的缺点是它往往过于保守。
另一种方法是控制错误发现率(FDR):
fdr=e[#假阳性/#拒绝]
它度量了所有对零假设的拒绝,即所有你声明有统计上显著差异的度量。他们中有多少人有真正的差异,而有多少人是假阳性。只有当您有大量的度量,比如数百个时,这才有意义。假设我们有200个指标,并将FDR上限设为0.05。这意味着我们可以看到5次假阳性。我们每次都会在那200个指标中观察到至少10个假阳性。
理想情况下,我们看到了实际的显著治疗结果,我们可以考虑向所有用户推出该功能。但有时,我们会看到相互矛盾的结果,例如一个指标上升而另一个下降,因此我们需要做出输赢的权衡。一个面试样本问题是:
运行测试后,您会看到所需的指标,例如点击率在上升,而印象数在下降。你会怎么做决定?
在现实中,产品推出决策可能涉及到很多因素,如实施的复杂性、项目管理的努力、客户支持成本、维护成本、机会成本等。
在采访中,我们可以提供解决方案的简化版本,重点放在实验的当前目标上。它是为了最大限度地参与,保留,收入,还是其他什么?此外,我们希望量化负面影响,即非目标度量中的负面变化,以帮助我们做出决定。例如,如果收入是目标,我们可以选择它,而不是最大限度地参与,假设负面影响是可以接受的。
最后,我想向您推荐两个参考资料,让您更多地了解A/B测试。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
CDA 精益业务数据分析:数据驱动业务增长的实战方法论 在企业数字化转型的浪潮中,“数据分析” 已从 “加分项” 成为 “必修课 ...
2025-07-16MySQL 中 ADD KEY 与 ADD INDEX 详解:用法、差异与优化实践 在 MySQL 数据库表结构设计中,索引是提升查询性能的核心手段。无论 ...
2025-07-16解析 MySQL Update 语句中 “query end” 状态:含义、成因与优化指南 在 MySQL 数据库的日常运维与开发中,开发者和 DBA 常会 ...
2025-07-16如何考取数据分析师证书:以 CDA 为例 在数字化浪潮席卷各行各业的当下,数据分析师已然成为企业挖掘数据价值、驱动决策的 ...
2025-07-15CDA 精益业务数据分析:驱动企业高效决策的核心引擎 在数字经济时代,企业面临着前所未有的数据洪流,如何从海量数据中提取有 ...
2025-07-15MySQL 无外键关联表的 JOIN 实战:数据整合的灵活之道 在 MySQL 数据库的日常操作中,我们经常会遇到需要整合多张表数据的场景 ...
2025-07-15Python Pandas:数据科学的瑞士军刀 在数据驱动的时代,面对海量、复杂的数据,如何高效地进行处理、分析和挖掘成为关键。 ...
2025-07-15用 SQL 生成逆向回滚 SQL:数据操作的 “后悔药” 指南 在数据库操作中,误删数据、错改字段或误执行批量更新等问题时有发生。 ...
2025-07-14t检验与Wilcoxon检验的选择:何时用t.test,何时用wilcox.test? t 检验与 Wilcoxon 检验的选择:何时用 t.test,何时用 wilcox. ...
2025-07-14AI 浪潮下的生存与进阶: CDA数据分析师—开启新时代职业生涯的钥匙(深度研究报告、发展指导白皮书) 发布机构:CDA数据科 ...
2025-07-13LSTM 模型输入长度选择技巧:提升序列建模效能的关键 在循环神经网络(RNN)家族中,长短期记忆网络(LSTM)凭借其解决长序列 ...
2025-07-11CDA 数据分析师报考条件详解与准备指南 在数据驱动决策的时代浪潮下,CDA 数据分析师认证愈发受到瞩目,成为众多有志投身数 ...
2025-07-11数据透视表中两列相乘合计的实用指南 在数据分析的日常工作中,数据透视表凭借其强大的数据汇总和分析功能,成为了 Excel 用户 ...
2025-07-11尊敬的考生: 您好! 我们诚挚通知您,CDA Level I和 Level II考试大纲将于 2025年7月25日 实施重大更新。 此次更新旨在确保认 ...
2025-07-10BI 大数据分析师:连接数据与业务的价值转化者 在大数据与商业智能(Business Intelligence,简称 BI)深度融合的时代,BI ...
2025-07-10SQL 在预测分析中的应用:从数据查询到趋势预判 在数据驱动决策的时代,预测分析作为挖掘数据潜在价值的核心手段,正被广泛 ...
2025-07-10数据查询结束后:分析师的收尾工作与价值深化 在数据分析的全流程中,“query end”(查询结束)并非工作的终点,而是将数 ...
2025-07-10CDA 数据分析师考试:从报考到取证的全攻略 在数字经济蓬勃发展的今天,数据分析师已成为各行业争抢的核心人才,而 CDA(Certi ...
2025-07-09【CDA干货】单样本趋势性检验:捕捉数据背后的时间轨迹 在数据分析的版图中,单样本趋势性检验如同一位耐心的侦探,专注于从单 ...
2025-07-09year_month数据类型:时间维度的精准切片 在数据的世界里,时间是最不可或缺的维度之一,而year_month数据类型就像一把精准 ...
2025-07-09