置换检验如何选择检验统计量?

机器算法验证 假设检验
2022-03-24 17:51:39

置换检验的目的是检验几组样本来自同一分布的空值吗?

我发现它的步骤

检验统计量显着性水平的基于排列的计算步骤如下:

i) 选择一个检验统计量,例如。用于比较两组的 t 分数,

ii) 计算感兴趣基因的检验统计量,

iii) 随机排列样本上的标签,并重新计算重新排列的标签的检验统计量;重复大量(可能 1,000 个)排列,最后,

iv) 计算来自 iii) 的测试统计量超过来自 ii) 的真实测试统计量的案例比例。

第一步应该选择什么样的检验统计量?

该示例使用 t 分数,它衡量两组之间的差异。但在我看来,任何统计数据都行得通,不一定是衡量两组之间的差异。这是对的吗?

谢谢并恭祝安康!

2个回答

通常有几个统计数据都会产生相同的 p 值/结果。例如,在 2 个样本的情况下,2 个均值的差异、A 组的平均值以及 A 组中的值的总和都将产生相同的 p 值(这是因为在给定数据值和样本大小的情况下,您可以计算出第 1 个 2 只给出第 3 个)。我希望 t 统计量与上述任何一项相似,但可能不完全相同(由于除以标准偏差)。还有其他统计数据可能在结果中非常不同,可能是 2 个中位数的差异,或者 2 个方差的比率。这些其他统计数据将受到排列过程的不同影响。

您的选择应该基于基于科学和所问问题的最有趣的组合(有时中位数可能更感兴趣,其他时候可能是平均值)以及使您能够检测合理/有意义差异的能力备择方案。您可以稍后通过模拟您认为可能或有趣的案例中的数据并观察统计数据的表现来对此进行测试。

您选择一个测试统计量来衡量您感兴趣的/具有您需要的属性。

如果要比较均值,则以均值差异为基础;如果您想要对位置进行可靠的比较,则可以测量其他内容;如果你想比较标准差,你可以使用统计数据;如果要比较分布的所有方面,请使用比较所有方面的统计量(例如 Kolmogorov-Smirnov 检验的 k 样本版本)。