机器算法验证 - 当大多数结果在统计上显着而不能拒绝零假设但不是全部时，应该得出什么结论？ - 吾爱随笔录

当大多数结果在统计上显着而不能拒绝零假设但不是全部时，应该得出什么结论？

机器算法验证假设检验分布卡方检验 p 值推理

2022-04-14 04:28:41

我抽样了8袋某品牌的糖果，比较糖果的颜色分布。我有 4 个袋子，每种尺寸的袋子，8 盎司和 1.9 磅。这些袋子是随机配对的。以下是我的假设：

$\ \ \ \ H_0: The \ distribution \ of \ each \ color \ of \ candies \ is \ equal \ in \ all \ sizes \ of \ bags.\\ \ \ \ \ H_A: The \ distribution \ of \ each \ color \ of \ candies \ is \ not \ equal \ in \ all \ sizes \ of \ bags.$

然后我对每对袋子进行 4 次卡方检验，生成 4 个 p 值。在 0.05 的 alpha 水平下，其中 3 对表明我未能拒绝我的零假设，但有一对建议我拒绝它。从中得出结论的最佳方法是什么？我是否应该因为大多数人表明这一点而总体上无法拒绝零假设？

3个回答

如果你所有的零假设实际上都是真的，那么你在至少一个实验中拒绝的概率是

1 - {0.95}^{4} \approx 0.19

$1 - 0.95^4 \approx 0.19$

因此，即使所有袋子的颜色分布相同，您也有大约 20% 的机会会在实验中发现至少一个拒绝。不太可能；你现在决定如何行动取决于犯错的代价。

我建议你吃20%的糖果。

不是 (1-.95)^4 吗？

我想我做对了：

一项实验错误拒绝的概率： $0.05$
一项实验没有错误拒绝的概率： $0.95$
所有实验不错误拒绝的概率： $0.95^4$
至少一项实验错误拒绝的概率： $1 - 0.95^4$

如果您试图测试分布是否取决于袋子 - 或者，等效地，如果所有袋子都是来自同一群体的随机样本 - 对袋子执行测试是行不通的，因为它会产生矛盾的结果 - 正如你发现的那样- 并且由于多重比较问题，I 类错误的概率会增加- 正如 Mathew Durry 的回答和 XKCD 漫画在不同背景下所展示的那样。

您可以通过使用所有袋子执行单个测试来避免此问题：同质性卡方检验，它将告诉您袋子之间是否存在显着差异。

请注意，该测试的大多数在线示例仅使用一对样本，但对于更多样本也同样适用。此外，该测试与独立性卡方测试相同（只是解释有点不同），因此您可以在两个名称下找到信息。

如果同质性检验表明袋子之间存在显着差异，您可能想知道哪些袋子之间存在显着差异。然后，配对测试可能很有用，但为了防止多重比较问题再次发生，您需要进行更正。我建议Bonferroni 更正，因为它很简单。

无论如何，如果您的包只是从商店货架上随机取出的包，那么知道哪一个明显不同是无趣的，同质性测试应该足以满足您的目的。

在“结果”一章中解释结果后，您可以在讨论中声明一个结果显着。您可以根据文献提供您对结果的解释，并向读者建议合理的解释数量。

其它你可能感兴趣的问题

上一篇期望值1 / x1/x什么时候Xx遵循 Beta 分布下一篇结构方程模型 (SEM) 只是验证性因子分析 (CFA) 的另一个名称吗？