我想了解蒙特卡洛模拟在chisq.test()
R 函数中的使用。
我有一个定性变量,它有 128 个级别/类。我的样本量是 26(我无法对更多“个人”进行抽样)。所以很明显,我会有一些“个人”为0的级别。但事实是,在 127 个可能的类别中,我只代表了极少数的类别。我听说要应用卡方检验,每个级别至少应该有 5 个人(我不完全理解其中的原因),我想我必须使用simulate.p.value
使用蒙特卡罗模拟的选项来估计分布并计算一个 p 值。没有蒙特卡洛模拟,R 给了我一个 p-value < 1e-16
。使用蒙特卡罗模拟,它给了我一个 p 值4e-5
。
我尝试用 26 个 1 和 101 个 0 的向量计算 p 值,通过蒙特卡洛模拟,我得到一个 1 的 p 值。
是否可以说,即使我的样本量与可能类别的数量相比很小,观察到的分布也使得所有可能的类别不太可能以相同的概率(1/127)存在于真实人口中?