这应该是一个非常基本的问题,但我无法弄清楚我哪里出错了。下面的矩阵包含有关两个瓮中球的颜色分布的数据。我正在寻找一种正式的方法,可以告诉我两者的内容是否来自相同的人口分布。
freqs = c(25,94,85,47,13,1685)
data = matrix(freqs, nrow=2)
dimnames(data) = list("treatment"=c("Urn1","Urn2"), "outcome"=c("Blue","Green","Red"))
绘制每个 urn 的(基于频率的)MLE,我可以定性地观察 Urn1 和 Urn2 的颜色分布看起来非常不同。
toplot<- as.matrix(rbind(data[1,],data[2,] ))
barplot(toplot, beside = TRUE, col = c("green", "gray"), las=2);
我见过独立性测试,用于检查像我这样的两个样本集之间的“关联”。当我运行测试(下)时,我得到 p_value < 2.2e-16(下),它接受(?)样本集 Urn1 的颜色分布独立于 Urn2 的颜色分布的零假设。我曾期望看到一个测试结果,表明这两个样本集来自独立/不同的人口分布。
我想我在这里混合概念。我是否正在尝试将测试用于它不适合的东西?如果是这样,我应该使用哪种方法进行简单比较?
result <- chisq.test(data)
# Pearson's Chi-squared test
#
#data: data
#X-squared = 884.9506, df = 2, p-value < 2.2e-16