A/B测试：数据科学面试中的7个常见问题和答案，第2部分-CDA数据分析师官网

热线电话：13121318867

A/B测试：数据科学面试中的7个常见问题和答案，第2部分

2022-02-28

注意:这是本文的第二部分。你可以在这里阅读第一部分。

分析测试结果

新颖性和首位效应

当产品发生变化时，人们对它的反应会有所不同。有些人习惯于产品的工作方式，不愿意改变。这被称为首要效应或改变厌恶。其他人可能会欢迎变化，一个新功能吸引他们更多地使用产品。这被称为新奇效应。然而，这两种影响都不会持续很长时间，因为人们的行为在一定时间后会稳定下来。如果a/B测试有较大或较小的初始效应，这可能是由于新的或首要效应。这是实践中常见的问题，很多面试问题都是关于这个话题的。一个面试样本问题是：

我们在一个新特性上运行了一个a/B测试，测试成功了，所以我们向所有用户启动了这个更改。然而，在推出该特性一周后，我们发现治疗效果迅速下降。怎么回事？

答案是新奇效应。随着时间的推移，随着新鲜感的消退，重复使用会减少，所以我们观察到治疗效果下降。

现在您理解了新奇和首要效应，我们如何解决潜在的问题？这是面试中典型的跟进问题。

处理这种影响的一个方法是完全排除那些影响的可能性。我们可以只对首次用户运行测试，因为新奇效应和首要效应显然不会影响这类用户。如果我们已经进行了测试，并且我们想要分析是否有新颖性或首要效应，我们可以（1）将控制组新用户的结果与治疗组的结果进行比较，以评估新颖性效应（2）将第一次用户的结果与治疗组现有用户的结果进行比较，以获得新颖性或首要效应影响的实际估计。

多重测试问题

在A/B试验的最简单形式中，有两种变体：对照(A)和治疗(B)。有时，我们运行一个测试与多个变体，看看哪一个是最好的所有功能。当我们要测试一个按钮的多种颜色或测试不同的主页时，可能会发生这种情况。然后我们会有不止一个治疗组。在这种情况下，我们不应该简单地使用0.05的相同显著性水平来决定检验是否显著，因为我们处理的是2个以上的变异体，错误发现的概率增加。例如，如果我们有3个治疗组与对照组进行比较，观察到至少1个假阳性的机会是多少（假设我们的显著性水平是0.05）？

我们可以得到没有假阳性的概率（假设组是独立的），

PR(FP=0)=0.95*0.95*0.95=0.857

然后获得至少有1个假阳性的概率

Pr(FP>=1)=1-Pr(FP=0)=0.143

只有3个治疗组（4个变异），假阳性（或I型错误）的概率超过14%。这称为“多重测试”问题。一个面试问题是

我们正在运行一个测试与10个变体，尝试我们的登陆页面的不同版本。1个处理获胜，P值小于0.05。你能改变吗？

答案是否定的，因为多重测试问题。有几种方法来接近它。一种常用的方法是Bonferroni校正。它将显著性水平0.05除以试验次数。对于面试问题，既然我们测量了10个测试，那么测试的显著性水平应该是0.05除以10等于0.005。基本上，只有当检验的p值小于0.005时，我们才声称检验是显著的。Bonferroni校正的缺点是它往往过于保守。

另一种方法是控制错误发现率(FDR):

fdr=e[#假阳性/#拒绝]

它度量了所有对零假设的拒绝，即所有你声明有统计上显著差异的度量。他们中有多少人有真正的差异，而有多少人是假阳性。只有当您有大量的度量，比如数百个时，这才有意义。假设我们有200个指标，并将FDR上限设为0.05。这意味着我们可以看到5次假阳性。我们每次都会在那200个指标中观察到至少10个假阳性。

做决定

理想情况下，我们看到了实际的显著治疗结果，我们可以考虑向所有用户推出该功能。但有时，我们会看到相互矛盾的结果，例如一个指标上升而另一个下降，因此我们需要做出输赢的权衡。一个面试样本问题是：

运行测试后，您会看到所需的指标，例如点击率在上升，而印象数在下降。你会怎么做决定？

在现实中，产品推出决策可能涉及到很多因素，如实施的复杂性、项目管理的努力、客户支持成本、维护成本、机会成本等。

在采访中，我们可以提供解决方案的简化版本，重点放在实验的当前目标上。它是为了最大限度地参与，保留，收入，还是其他什么？此外，我们希望量化负面影响，即非目标度量中的负面变化，以帮助我们做出决定。例如，如果收入是目标，我们可以选择它，而不是最大限度地参与，假设负面影响是可以接受的。

资源

最后，我想向您推荐两个参考资料，让您更多地了解A/B测试。

Udacity的免费A/B测试课程涵盖了A/B测试的所有基础知识。
值得信赖的在线控制实验-A/B测试的实用指南，作者：罗恩·科哈维，黛安·唐，和雅·许。它对如何在工业中运行A/B测试、潜在的陷阱和解决方案有深入的知识。它包含了很多有用的东西，所以我实际上计划写一篇文章来总结这本书的内容。如果你感兴趣，请继续关注！