打乱我的数据以调查 3 组之间的差异

机器算法验证 方差分析 统计学意义 模拟
2022-04-08 07:44:16

我确信这已经存在,但我只是不知道要查找的术语。

我有三组 10 次测量。每组对应一个不同的地理区域。因此,我的变量总共有 30 个测量值,并且我有 3 个级别(西部地区、中部地区、东部地区)的因子“区域”。

假设我做了一个简单的方差分析,我得到了 3 个区域之间的差异。但我想尝试一下这种差异是“偶然”的可能性。或者,在另一种情况下,假设由于某种原因(例如,强烈的不均匀方差)我不能使用 ANOVA,并且我使用了非参数测试并且我没有发现差异

我想知道是否可以执行以下操作(或者这个想法是否合适):

如果这 3 个区域之间确实没有区别,那么我可以假设任何测试(例如 ANOVA 或非参数等效项)都会找到近似相同的结果,即使我一次又一次地随机混合所有数据。所以我想我可以模拟这个,使用我自己的数据,但只是在不同的分组中。例如: 1- 从我自己的测量中取出所有 30 个值 2- 将它们分成 3 组,即。随机选择 10 个值并将它们分配给随机选择的组;重复接下来的 10 个数据,然后您再次获得 3 组 10 个测量值。3-运行测试(例如方差分析)

现在我回到 1,并重复此操作,例如 1000 次,看看是否会收敛到“稳定”模式。如果有,那么实际上没有区别。如果收敛与我使用“真实”数据集找到的结果有很大差异,那么我可能认为这 3 个区域之间实际上存在差异。

我的推理是否正确/合理?我知道有这样的东西,我只是不记得名字了..我以为它与排列有关,但我不确定...

1个回答

如果这 3 个区域之间确实没有区别,那么我可以假设任何测试(例如 ANOVA 或非参数等效项)都会找到近似相同的结果,即使我一次又一次地随机混合所有数据。

这是重采样方法(例如排列测试/随机化测试)的核心见解。

例如参见维基百科,例如这里

置换测试的基本思想(让我们采用单向方差分析的情况)是,如果 null 为真,则组标签是任意的 - 您不会通过打乱它们来更改分布。

因此,如果您查看组标签的所有可能排列并计算一些感兴趣的测试统计量,您将获得所谓的测试统计量的排列分布。然后,您可以查看您的特定样本(这将是可能的排列之一 - 或更准确地说,可能的组合)是否异常远离该空分布的“尾部”(给出 p 值)。

许多常见的基于非参数秩的检验实际上是在秩上进行的置换检验(这是一种不用计算机进行置换检验的实用方法,除非样本量非常小,否则这非常乏味)。

当样本量很大时,一个选项是从排列分布中抽样(有放回),通常是因为有太多组合来评估它们。通常这是通过随机排列标签而不是系统地重新排列它们以涵盖所有可能性来实现的。然后为每个这样的安排计算测试统计量。然后将统计数据的样本值与分布进​​行比较(它通常包含在计算 p 值的分布中,并计入“至少与自身一样极端”的值)。一些作者将这种抽样排列测试称为随机化测试(尽管其他作者将该术语保留为与排列测试相关的稍微不同的概念)。

你所描述的非常接近这个随机抽样的排列测试(随机化测试)。

我建议尝试这样的随机化测试,尤其是因为它能够根据您可用于解决问题的标准工具来扩展您的视野。该过程是无分布的(以样本为条件)——它需要更少的假设,同时仍然允许您使用熟悉的统计数据或根据您的情况定制的统计数据(例如,您可以插入更可靠的位置测量)。

在实践中,我建议对随机化测试进行 1000 多个重采样。考虑一个 p 值接近 5% 的检验。样本量为 1000 的估计 p 值的标准误差将接近 0.007;当真正的 p 值仅在 5% 的一侧时,几乎 15% 的时间你会在错误的一侧看到超过 1% 的值(应该是超过 6% 或小于 4%另一边)。我通常将 10000 视为我所做工作的低端,除非我只是想大致了解 p 值的大致情况。如果我在做一个正式的测试,我想把它固定好一点。我经常做 100,000 次,有时甚至超过 100 万次——至少对于更简单的测试是这样。

如果您在此处搜索置换测试随机化测试,您应该会找到许多相关的问题和答案,甚至是一些示例。