机器算法验证 - 估计不同小册子的比较成功 - 吾爱随笔录

现实世界的问题

我的一个客户正准备向他们的订阅用户列表发送直接邮件，而这个统计挑战出现了。

他们的营销团队有 3 种不同的宣传册，并且想知道哪张宣传册的响应率最高。他们还想知道，与普通信封相比，在厚信封上发送带有手写地址的邮件是否能提高结果。

让我们假设以下内容：

对于每个小册子 ( )，收到该小册子并实际打开并阅读它的人将以概率做出响应，其中是该小册子的真实响应率 $b_i$ $i = 1,2,3$ $r_i$ $r_i$
厚、高质量信封的真实打开率为，而普通信封的打开率为 $o_{thick}$ $o_{normal}$
根据之前的邮件，我们预计实际观察到的回复率将在大约 1% 到 5% 之间。

我们的目标

我们希望在发送最少数量的邮件的同时找到最好的宣传册。我们还想估计两个开放率。

之间的真实差异大于 0.5%，我们应该能够检测到该差异具有统计显着性， $r_i$ $p < .05$

到目前为止我的想法

我们将用户随机分配给 3 个小册子中的每一个，这样个用户就会收到每本小册子。我们想知道我们需要多少才能在检测响应率差异时达到我们想要的灵敏度。假设最坏的情况，我们需要能够检测 1% 和 1.5% 的真实比率之间的差异。这种差异的 SD 是。将该数量的两倍（2 个标准差给我们 95% 的置信度）设置为等于 0.005（我们想要的 0.5%）导致解。 $N$ $N$ $\sqrt{\frac{(.01*.99) + (.015*.985)}{N}}$ $N = 3948$

问题

这是最佳设计还是我们可以做得更好？
我对的计算是否正确？ $N$

最后，估计和的最佳方法是什么，或者只是两者之间的区别？ $o_{normal}$ $o_{thick}$

我的想法是将每个小册子组的一半随机分配给每种类型的信封。在每个小册子组中，观察到的响应率将是打开率和的乘积。这会使我上面的计算复杂化，因为我真的应该在计算中使用这个产品。 $r_i$ $N$

然后我的答案将取决于对平均打开率的估计 - - 我必须猜测。另外，我不确定如何确定和之间差异的分布，因为我们现在对该差异有三个不同的估计，每个估计都取决于不同的，每个我们都有只有经验估计，经验估计本身取决于我们对平均打开率的猜测。 $\frac{o_{normal} + o_{thick}}{2}$ $o_{normal}$ $o_{thick}$ $r_i$

非常感谢您对此的任何帮助。