聚类和 A/B 测试

机器算法验证 假设检验 统计学意义 聚类
2022-03-31 09:39:32

我的问题如下:假设我已经在我的数据(不同的客户群)中定义了集群,并且我运行了 A/B 测试。我可以比较不同集群在 A/B 测试中的表现吗?我没有找到很多关于它的文献(实际上几乎没有)所以我想知道是否有统计上的理由不这样做?

以下是问题的详细解释:

假设我运行了一个 A/B 测试。事实证明,A 和 B 在统计上都没有明显优于另一个。尽管如此,从中获得见解还是很棒的。也许一部分人更喜欢新版本 B,而另一部分人更喜欢版本 A。假设我已经在我的客户中确定了集群,我想看看这些集群如何受到 A/B 测试的影响。例如,20 岁以下的人(A 组)在版本 B 上的转化率提高了 10%,而 50 岁以上的人(B 组)的转化率则降低了 10%。然后,我们之前的 A/B 测试表明变化没有带来统计上的显着变化,这让我们有了更多的见解。我们可以尝试理解为什么版本 B 更适合年轻人而不适合老年人。我们从测试中获得了一些见解。

当然,如果您这样做,您很可能会发现性能比其他集群更好(或更差)的集群。因此,您必须在给定集群上运行另一个 A/B 测试,以验证您的假设。

我还没有发现其他人这样做,是否有统计上的理由不这样做,或者这是获得洞察力的合法方式?

非常感谢 !

1个回答

当然,您可以比较不同的集群,尽管仔细考虑从统计显着性推断的内容很重要。虽然它确实是一个非常好的指标,但就其本质而言,它的阈值p<0.05将意味着1/20测试将导致误报,让许多工程师和科学家惊呼,虽然可能不存在效果。此外,如果测试返回p=0.055你会立即断定那里没有关系吗?

这个问题涉及多重比较的问题,您应用的测试越多,您就越有可能找到具有统计意义的东西。有一些简单的修正,例如 bonferroni,它基本上将阈值降低到p<0.05/ntests虽然这必须谨慎使用,因为它是一个相当激进的修正。

因此,通过多种方式查看您的数据以从中提取洞察力是没有害处的,事实上我会鼓励这样做。我能给出的最好建议是查看您的数据,将其绘制出来,查看分布,您有多少数据点,它们是正常的还是非参数的或倾斜的。真正了解正在发生的事情,而不是仅仅依靠统计测试。如果您有预感并且 p 值看起来正确,请收集更多数据,看看这是否证实了您的理论。