我正在研究 Kruschke 的Doing Bayesian Data Analysis中的示例,特别是 ch 中的 Poisson 指数 ANOVA。22,他提出作为列联表独立性的常客卡方检验的替代方案。
如果变量是独立的(即当 HDI 排除零时),我可以看到我们如何获得有关发生频率高于或低于预期的交互的信息。
我的问题是如何计算或解释这个框架中的效果大小?例如,Kruschke 写道:“如果眼睛颜色和头发颜色是独立的,那么蓝眼睛和黑头发的组合发生的频率比预期的要少”,但我们如何描述这种关联的强度呢?我如何判断哪些互动比其他互动更极端?如果我们对这些数据进行卡方检验,我们可能会计算出 Cramér V 作为整体效应大小的度量。在这种贝叶斯背景下,我如何表达效果大小?
这是书中的独立示例(编码在 中R
),以防万一答案在我眼前隐藏...
df <- structure(c(20, 94, 84, 17, 68, 7, 119, 26, 5, 16, 29,
14, 15, 10, 54, 14), .Dim = c(4L, 4L),
.Dimnames = list(c("Black", "Blond",
"Brunette", "Red"), c("Blue", "Brown", "Green", "Hazel")))
df
Blue Brown Green Hazel
Black 20 68 5 15
Blond 94 7 16 10
Brunette 84 119 29 54
Red 17 26 14 14
这是常客的输出,带有效果大小的度量(不在书中):
vcd::assocstats(df)
X^2 df P(> X^2)
Likelihood Ratio 146.44 9 0
Pearson 138.29 9 0
Phi-Coefficient : 0.483
Contingency Coeff.: 0.435
Cramer's V : 0.279
这是贝叶斯输出,带有 HDI 和单元概率(直接来自书中):
# prepare to get Krushkes' R codes from his web site
Krushkes_codes <- c(
"http://www.indiana.edu/~kruschke/DoingBayesianDataAnalysis/Programs/openGraphSaveGraph.R",
"http://www.indiana.edu/~kruschke/DoingBayesianDataAnalysis/Programs/PoissonExponentialJagsSTZ.R")
# download Krushkes' scripts to working directory
lapply(Krushkes_codes, function(i) download.file(i, destfile = basename(i)))
# run the code to analyse the data and generate output
lapply(Krushkes_codes, function(i) source(basename(i)))
以下是应用于数据的泊松指数模型的后验图:
以及估计细胞概率的后验分布图: