应用蒙特卡罗模拟 p 值进行卡方检验的规则

机器算法验证 r 卡方检验 蒙特卡洛
2022-03-22 08:44:13

我想了解蒙特卡洛模拟在chisq.test()R 函数中的使用。

我有一个定性变量,它有 128 个级别/类。我的样本量是 26(我无法对更多“个人”进行抽样)。所以很明显,我会有一些“个人”为0的级别。但事实是,在 127 个可能的类别中,我只代表了极少数的类别。我听说要应用卡方检验,每个级别至少应该有 5 个人(我不完全理解其中的原因),我想我必须使用simulate.p.value使用蒙特卡罗模拟的选项来估计分布并计算一个 p 值。没有蒙特卡洛模拟,R 给了我一个 p-value < 1e-16使用蒙特卡罗模拟,它给了我一个 p 值4e-5

我尝试用 26 个 1 和 101 个 0 的向量计算 p 值,通过蒙特卡洛模拟,我得到一个 1 的 p 值。

是否可以说,即使我的样本量与可能类别的数量相比很小,观察到的分布也使得所有可能的类别不太可能以相同的概率(1/127)存在于真实人口中?

1个回答

通过搜索,蒙特卡罗模拟的重点似乎是根据与测试样本具有相同大小的随机生成的样本生成参考分布,以便在不满足测试条件时计算 p 值。

Hope A. J Royal Stat Society Series B (1968) 对此进行了解释,该系列可在JSTOR上找到。

这是希望论文的相关引述:

蒙特卡罗显着性检验程序包括将观察到的数据与根据被检验假设生成的随机样本进行比较。...最好使用已知的良好效率测试而不是蒙特卡罗测试程序,假设可以完全指定替代统计假设。但是,并不总是可以使用这样的测试,因为可能不满足应用测试的必要条件,或者潜在分布可能未知,或者可能难以确定适当的测试标准。