背景:
我的软件要求用户提供任意数量的可选捐款。我在用户之间分配测试捐赠请求以找到最好的提问方式:50% 获得请求版本 1,50% 获得请求版本 2,我们看看哪个更好。
几乎所有用户都捐 0 美元,但也有少数用户捐款。结果可能如下所示:
Number of users Number of donations Dollar amounts donated
GROUP A 10,000 10 40,20,20,20,15,10,10,5,5,5
GROUP B 10,000 15 50,20,10,10,10,10,10,10,5,5,5,5,5,5,5
我想知道一组是赢家,还是平局,或者我们是否需要更大的样本来确定。(这个例子,为了讨论而保持简单,几乎可以肯定需要更大的样本才能获得显着的结果。)
我已经测量的内容:
- 一组有明显更多的捐款吗?大多少?我使用ABBA Thumbtack 工具 测量这个 p 值和置信区间,仅使用捐赠数量和用户数量,忽略美元金额。其方法在“什么是基础统计数据?”中进行了描述。该链接的部分。(这超出了我的想象,但我相信它通过将捐赠率之间的差异作为 Agresti-Couli 区间上的正常随机变量来计算置信区间。)
- 一组捐赠的总金额是否有显着差异? 我通过执行置换测试来测量这个 p 值:重复将所有 2N 个受试者重新洗牌到 2 个 N 个受试者组中,每次测量组之间总资金的差异,并找到差异 >= 观察到的洗牌的比例区别。(我相信这是有效的,基于这个可汗学院视频为饼干做同样的事情而不是美元。)
R的wilcox.test:
现在关于wilcox.test()R 的几个问题:
- 如果我提供
wilcox.test(paired=FALSE)上面的数据表,它会回答我上面的工具尚未回答的任何新问题,让我有更多的洞察力来决定是否继续运行我的测试/宣布获胜者/宣布平局? - 如果是这样,它会回答什么确切的问题?