机器算法验证 - 置换检验：选择检验统计量的标准 - 吾爱随笔录

机器算法验证假设检验置换检验

2022-03-22 17:35:17

我经常使用置换测试并喜欢它们的简单性。我从 Good 的《重采样方法》一书中学到了最多的东西，其中作者在整个示例中选择测试统计数据时似乎很有创意。此外，这篇文章给人的印象是选择检验统计量有很大的自由度。

我确实想知道测试统计是否应符合理论要求。或者我们可以使用任何统计数据，只要它直观地有意义并且具有良好的 I/II 类错误率？

例如，当由于非正态总体而使用置换检验而不是 t 检验时，我已经多次看到置换检验 p 值仍然是从 t 统计量获得的。虽然不一定是错的，但考虑到学生 t 分布的起源，这似乎是一个奇怪的选择。

1个回答

t 统计量作为检验统计量很有意义。许多人觉得它很直观。如果我引用 0.5 或 5.5 的 t 统计量，它会告诉您一些信息——除均值之外有多少标准误。

困难——至少在适度的非正态性下——与其说是使用统计量，不如说是使用t 分布作为其在零值下的分布。统计数据非常合理。

当然，如果您预计尾部比正常值大得多，那么更稳健的统计量会更好，但 t 统计量对与正态性的轻微偏差并不高度敏感（例如，它不如方差比统计量敏感）。

如果您只想使用统计数据的分子，那很好，如果您对均值的差异感兴趣，它作为排列统计数据非常有意义。如果您对更一般的位置转移感感兴趣，它会打开大量其他可能性。

你认为有很大的自由来选择统计数据并根据特定情况对其进行调整是正确的——你想要对抗哪些替代方案，或者你希望能够应对哪些可能的问题（例如污染，可以冲击力）。

实际上几乎没有任何限制——您可以自由选择几乎任何东西，包括无用的测试统计信息。当然，在选择测试时，您确实应该考虑一些考虑因素，但您可以不考虑。

也就是说，有一些标准可以应用于各种情况。

例如，如果您对特定类型的假设特别感兴趣，则可以使用反映该假设的统计量 - 例如，如果您想检验总体均值的差异，则通常将检验统计量设为有意义与样本均值的差异有关。

如果您对可能具有的分布类型有所了解 - 重尾，或偏斜，或名义上轻尾但有一定程度的污染，或双峰，......您可以设计一个在这种情况下可能表现良好的检验统计量，例如，选择在预期情况下表现良好但对污染具有一定鲁棒性的统计数据。

模拟是在各种情况下调查功率的一种方法。

其它你可能感兴趣的问题