检验两个多项式样本是否来自同一分布

机器算法验证 分类数据 卡方检验 多项分布
2022-03-14 22:58:21

这应该是一个非常基本的问题,但我无法弄清楚我哪里出错了。下面的矩阵包含有关两个瓮中球的颜色分布的数据。我正在寻找一种正式的方法,可以告诉我两者的内容是否来自相同的人口分布。

freqs = c(25,94,85,47,13,1685)
data = matrix(freqs, nrow=2)
dimnames(data) = list("treatment"=c("Urn1","Urn2"), "outcome"=c("Blue","Green","Red"))

绘制每个 urn 的(基于频率的)MLE,我可以定性地观察 Urn1 和 Urn2 的颜色分布看起来非常不同。

toplot<- as.matrix(rbind(data[1,],data[2,] ))
barplot(toplot, beside = TRUE, col = c("green", "gray"), las=2); 

在此处输入图像描述

我见过独立性测试,用于检查像我这样的两个样本集之间的“关联”。当我运行测试(下)时,我得到 p_value < 2.2e-16(下),它接受(?)样本集 Urn1 的颜色分布独立于 Urn2 的颜色分布的零假设。我曾期望看到一个测试结果,表明这两个样本集来自独立/不同的人口分布。χ2

我想我在这里混合概念。我是否正在尝试将测试用于它不适合的东西?如果是这样,我应该使用哪种方法进行简单比较?χ2

result <- chisq.test(data)

#   Pearson's Chi-squared test
#
#data:  data
#X-squared = 884.9506, df = 2, p-value < 2.2e-16
2个回答

您正确地执行了 -独立性测试,因此唯一的问题在于其假设的制定和测试结果的解释:χ2

独立性检验检验零假设“两种颜色分布相等与任何差异的工作假设。p 值小于预先指定的水平,因此您拒绝原假设并以大约的置信度声称颜色在瓮之间的分布不同。χ2α(1α)100%

术语“独立性”测试有时有点令人困惑,但如果您考虑列联表背后的“原始”数据会更清楚:

Color   Urn
Blue      1
Blue      2
Green     2
Red       1
Blue      1
...

变量“Urn”独立于随机变量“Color”的原假设等价于上述原假设。所以这不是关于两种颜色分布的独立性,而是关于颜色和瓮的独立性。

请注意,较大的 p 值并不意味着颜色分布相等。这将很难通过“经典”统计方法来显示。

假设 Y | X = 0 和 Y | X = 1 是由 X 表示的两个多项分布。那么:

P(Y = y| X = x) = P(Y = y) 意味着独立,它也意味着:P(Y = y| X = 0) = P(Y = y| X = 1) 反之亦然。

即,独立性检验等同于相同分布的检验