京公网安备 11010802034615号
经营许可证编号:京B2-20210330
注意:这是本文的第二部分。你可以在这里阅读第一部分。
当产品发生变化时,人们对它的反应会有所不同。有些人习惯于产品的工作方式,不愿意改变。这被称为首要效应或改变厌恶。其他人可能会欢迎变化,一个新功能吸引他们更多地使用产品。这被称为新奇效应。然而,这两种影响都不会持续很长时间,因为人们的行为在一定时间后会稳定下来。如果a/B测试有较大或较小的初始效应,这可能是由于新的或首要效应。这是实践中常见的问题,很多面试问题都是关于这个话题的。一个面试样本问题是:
我们在一个新特性上运行了一个a/B测试,测试成功了,所以我们向所有用户启动了这个更改。然而,在推出该特性一周后,我们发现治疗效果迅速下降。怎么回事?
答案是新奇效应。随着时间的推移,随着新鲜感的消退,重复使用会减少,所以我们观察到治疗效果下降。
现在您理解了新奇和首要效应,我们如何解决潜在的问题?这是面试中典型的跟进问题。
处理这种影响的一个方法是完全排除那些影响的可能性。我们可以只对首次用户运行测试,因为新奇效应和首要效应显然不会影响这类用户。如果我们已经进行了测试,并且我们想要分析是否有新颖性或首要效应,我们可以(1)将控制组新用户的结果与治疗组的结果进行比较,以评估新颖性效应(2)将第一次用户的结果与治疗组现有用户的结果进行比较,以获得新颖性或首要效应影响的实际估计。
在A/B试验的最简单形式中,有两种变体:对照(A)和治疗(B)。有时,我们运行一个测试与多个变体,看看哪一个是最好的所有功能。当我们要测试一个按钮的多种颜色或测试不同的主页时,可能会发生这种情况。然后我们会有不止一个治疗组。在这种情况下,我们不应该简单地使用0.05的相同显著性水平来决定检验是否显著,因为我们处理的是2个以上的变异体,错误发现的概率增加。例如,如果我们有3个治疗组与对照组进行比较,观察到至少1个假阳性的机会是多少(假设我们的显著性水平是0.05)?
我们可以得到没有假阳性的概率(假设组是独立的),
PR(FP=0)=0.95*0.95*0.95=0.857
然后获得至少有1个假阳性的概率
Pr(FP>=1)=1-Pr(FP=0)=0.143
只有3个治疗组(4个变异),假阳性(或I型错误)的概率超过14%。这称为“多重测试”问题。一个面试问题是
我们正在运行一个测试与10个变体,尝试我们的登陆页面的不同版本。1个处理获胜,P值小于0.05。你能改变吗?
答案是否定的,因为多重测试问题。有几种方法来接近它。一种常用的方法是Bonferroni校正。它将显著性水平0.05除以试验次数。对于面试问题,既然我们测量了10个测试,那么测试的显著性水平应该是0.05除以10等于0.005。基本上,只有当检验的p值小于0.005时,我们才声称检验是显著的。Bonferroni校正的缺点是它往往过于保守。
另一种方法是控制错误发现率(FDR):
fdr=e[#假阳性/#拒绝]
它度量了所有对零假设的拒绝,即所有你声明有统计上显著差异的度量。他们中有多少人有真正的差异,而有多少人是假阳性。只有当您有大量的度量,比如数百个时,这才有意义。假设我们有200个指标,并将FDR上限设为0.05。这意味着我们可以看到5次假阳性。我们每次都会在那200个指标中观察到至少10个假阳性。
理想情况下,我们看到了实际的显著治疗结果,我们可以考虑向所有用户推出该功能。但有时,我们会看到相互矛盾的结果,例如一个指标上升而另一个下降,因此我们需要做出输赢的权衡。一个面试样本问题是:
运行测试后,您会看到所需的指标,例如点击率在上升,而印象数在下降。你会怎么做决定?
在现实中,产品推出决策可能涉及到很多因素,如实施的复杂性、项目管理的努力、客户支持成本、维护成本、机会成本等。
在采访中,我们可以提供解决方案的简化版本,重点放在实验的当前目标上。它是为了最大限度地参与,保留,收入,还是其他什么?此外,我们希望量化负面影响,即非目标度量中的负面变化,以帮助我们做出决定。例如,如果收入是目标,我们可以选择它,而不是最大限度地参与,假设负面影响是可以接受的。
最后,我想向您推荐两个参考资料,让您更多地了解A/B测试。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在互联网运营、产品优化、用户增长等领域,次日留存率是衡量产品价值、用户粘性与运营效果的核心指标,更是判断新用户是否认可产 ...
2026-05-09相关性分析是数据分析领域中用于探究两个或多个变量之间关联强度与方向的核心方法,广泛应用于科研探索、商业决策、医疗研究、社 ...
2026-05-09 数据分析师八成以上的时间在和数据表格打交道,但许多人拿到Excel后习惯性地先算、先分析,结果回头发现漏了一列关键数据, ...
2026-05-09在数据驱动运营的时代,指标是连接业务目标与实际行动的核心桥梁,是企业解读业务现状、发现问题、预判趋势的“量化标尺”。一套 ...
2026-05-08在存量竞争日趋激烈的商业时代,“以客户为中心”早已从口号落地为企业运营的核心逻辑。而客户画像作为打通“了解客户”与“服务 ...
2026-05-08 很多数据分析师每天与Excel打交道,但当被问到“什么是表格结构数据”“它和表结构数据有什么区别”“表格结构数据有哪些核 ...
2026-05-08在数据分析、计量研究等场景中,回归分析是探究变量间量化关系的核心方法,无论是简单的一元线性回归,还是复杂的多元线性回归、 ...
2026-05-07在数据分析、计量研究等场景中,回归分析是探究变量间量化关系的核心方法,无论是简单的一元线性回归,还是复杂的多元线性回归、 ...
2026-05-07 很多数据分析师画过趋势图、做过业绩预测,但当被问到“这个月销售额增长20%,到底是长期趋势自然增长,还是促销活动的短期 ...
2026-05-07在数字化时代,商业竞争的核心已从“经验驱动”转向“数据驱动”,越来越多的企业意识到,商业分析不是简单的数据统计与报表呈现 ...
2026-05-06在Excel数据透视表的实操中,“引用”是连接透视表与公式、辅助数据的核心操作,而相对引用作为最基础、最常用的引用方式,其设 ...
2026-05-06 很多数据分析师做过按月份的销售额趋势图,画过按天的流量折线图,但当被问到“时间序列和普通数据有什么本质区别”“季节性 ...
2026-05-06在Excel数据分析中,数据透视表是汇总、整理海量数据的高效工具,而公式则是实现数据二次计算、逻辑判断的核心功能。实际操作中 ...
2026-04-30Excel透视图是数据分析中不可或缺的工具,它能将透视表中的数据快速可视化,帮助我们直观捕捉数据规律、呈现分析结果。但在实际 ...
2026-04-30 很多数据分析师能熟练地计算指标、搭建标签体系,但当被问到“画像到底在解决什么问题”“画像和标签是什么关系”“画像如何 ...
2026-04-30在中介效应分析中,人口统计学变量(如年龄、性别、学历、收入、职业等)是常见的控制变量或调节变量,其处理方式直接影响分析结 ...
2026-04-29在SQL数据库实操中,日期数据的存储与显示是高频需求,而“数字日期”(如20240520、20241231、45321)是很多开发者、数据分析师 ...
2026-04-29 很多分析师在设计标签时思路清晰,但真到落地环节却面临“数据在手,不知如何转化为可用标签”的困境:或因加工方式选择不当 ...
2026-04-29在手游行业竞争日趋白热化的当下,“流量为王”早已升级为“留存为王”,而付费用户留存率更是衡量一款手游盈利能力、运营质量的 ...
2026-04-28在日常MySQL数据库运维与开发中,经常会遇到“同一台服务器上,两个不同数据库(以下简称“源库”“目标库”)的表数据需要保持 ...
2026-04-28