列联表的贝叶斯分析:如何描述效应大小

机器算法验证 r 贝叶斯 规模效应 列联表
2022-03-08 04:16:00

我正在研究 Kruschke 的Doing Bayesian Data Analysis中的示例,特别是 ch 中的 Poisson 指数 ANOVA。22,他提出作为列联表独立性的常客卡方检验的替代方案。

如果变量是独立的(即当 HDI 排除零时),我可以看到我们如何获得有关发生频率高于或低于预期的交互的信息。

我的问题是如何计算或解释这个框架中的效果大小?例如,Kruschke 写道:“如果眼睛颜色和头发颜色是独立的,那么蓝眼睛和黑头发的组合发生的频率比预期的要少”,但我们如何描述这种关联的强度呢?我如何判断哪些互动比其他互动更极端?如果我们对这些数据进行卡方检验,我们可能会计算出 Cramér V 作为整体效应大小的度量。在这种贝叶斯背景下,我如何表达效果大小?

这是书中的独立示例(编码在 中R),以防万一答案在我眼前隐藏...

    df <- structure(c(20, 94, 84, 17, 68, 7, 119, 26, 5, 16, 29, 
                      14, 15, 10, 54, 14), .Dim = c(4L, 4L), 
    .Dimnames = list(c("Black", "Blond", 
    "Brunette", "Red"), c("Blue", "Brown", "Green", "Hazel")))

    df
    
             Blue Brown Green Hazel
    Black      20    68     5    15
    Blond      94     7    16    10
    Brunette   84   119    29    54
    Red        17    26    14    14

这是常客的输出,带有效果大小的度量(不在书中):

    vcd::assocstats(df)
                        X^2 df P(> X^2)
    Likelihood Ratio 146.44  9        0
    Pearson          138.29  9        0
    
    Phi-Coefficient   : 0.483 
    Contingency Coeff.: 0.435 
    Cramer's V        : 0.279

这是贝叶斯输出,带有 HDI 和单元概率(直接来自书中):

    # prepare to get Krushkes' R codes from his web site
    Krushkes_codes <- c(
      "http://www.indiana.edu/~kruschke/DoingBayesianDataAnalysis/Programs/openGraphSaveGraph.R", 
      "http://www.indiana.edu/~kruschke/DoingBayesianDataAnalysis/Programs/PoissonExponentialJagsSTZ.R")
    
    # download Krushkes' scripts to working directory
    lapply(Krushkes_codes, function(i) download.file(i, destfile = basename(i)))
    
    # run the code to analyse the data and generate output
    lapply(Krushkes_codes, function(i) source(basename(i)))

以下是应用于数据的泊松指数模型的后验图:

在此处输入图像描述

以及估计细胞概率的后验分布图:

在此处输入图像描述

2个回答

在 ANOVA 模型中研究效应大小的一种方法是查看“超总体”和“有限总体”标准差。您有一个双向表,因此这是 3 个方差分量(2 个主效应和 1 个交互作用)。这是基于 mcmc 分析。您计算每个 mcmc 样本的每个效应的标准偏差。

sk=1dk1j=1dk(βk,jβ¯k)2

在哪里k索引 ANOVA 表的“行”。mcmc 样本的简单箱线图sk对比k在效果大小方面很有指导意义。

Andrew Gelman 提倡这种方法。参见他 2005 年的论文“方差分析:为什么它比以往任何时候都更重要”

根据该指数,Kruschke 只提到了两次效果大小,而且两次都是在度量预测变量的上下文中。但是p上有这个位。601:

如果研究人员对违反独立性感兴趣,那么感兴趣的程度就在于βrc. 该模型为此目的特别方便,因为可以研究任意交互对比以确定出现非独立性的位置。

所以,我收集到β1,2是要解释的参数。S等于所有系数及其对应的 x 元素的乘积之和,不包括β1,2x1,2. 自从yiPois(λi)λi=eβ1,2x1,2+S=eβ1,2x1,2eS. 什么时候x1,2= 1,那么λi增长或缩小一个因素eβ1,2, 不?