机器算法验证 - 为什么用于贝叶斯因子和 p 值的截止值如此不同？ - 吾爱随笔录

为什么用于贝叶斯因子和 p 值的截止值如此不同？

机器算法验证假设检验贝叶斯 p 值贝叶斯因子

2022-03-26 01:04:49

我想了解贝叶斯因子（BF）。我相信它们就像两个假设的似然比。因此，如果 BF 为 5，则意味着 H1 的可能性是 H0 的 5 倍。并且值 3-10 表示中等证据，而>10 表示强证据。

然而，对于 P 值，传统上将 0.05 作为截止值。在此 P 值下，H1/H0 似然比应约为 95/5 或 19。

那么为什么 BF 的截止值 >3 而 P 值的截止值 >19 呢？这些值也不是很接近。

3个回答

一些东西：

BF 为您提供支持假设的证据，而常客假设检验为您提供反对（零）假设的证据。所以它有点像“苹果到橘子”。

这两个程序尽管有不同的解释，但可能会导致不同的决定。例如，BF 可能会拒绝，而常客假设检验不会，反之亦然。这个问题通常被称为Jeffreys-Lindley 悖论。这个网站上有很多关于这个的帖子；参见例如这里和这里。

“在这个 P 值下，H1/H0 的可能性应该是 95/5 或 19。” 不，这不是真的，因为大致。至少计算 p 值和执行频率测试不需要您对有任何了解。此外，p 值通常是密度/pmfs 的积分/总和，而 BF 不会在数据样本空间上积分。 $p(y \mid H_1) \neq 1- p(y \mid H_0)$ $p(y \mid H_1)$

贝叶斯因子 $B_{01}$ 可以转化为等权重下的概率，但这并不能使它们可与值相比较，因为

P_{01} = \frac{1}{1 + \frac{1}{B_{01}}}

$P_{01}=\frac{1}{1+\frac{1}{\large B_{01}}}$

p

$p$

$P_{01}$ 是参数空间中的概率，而不是采样空间中的概率
它的值和范围取决于先前度量的选择，因此它们是相对的而不是绝对的（泰勒提到的林德利-杰弗里斯悖论在这个阶段是恰当的）
和都通过在参数空间上积分来包含复杂性的惩罚（奥卡姆剃刀） $B_{01}$ $P_{01}$

如果您希望考虑贝叶斯等价于值，则应研究后验预测值(Meng, 1994) 其中表示观察值，是从后验预测但这并不意味着拒绝和重要性的相同“默认”标准应该适用于该对象。 $p$ $p$

Q_{01} = P (B_{01} (X) \leq B_{01} (x^{obs}))

$Q_{01}=\mathbb P(B_{01}(X)\le B_{01}(x^\text{obs}))$

x^{obs}

$x^\text{obs}$

X

$X$

X \sim \int_{Θ} f (x | θ) π (θ | x^{obs}) d θ

$X\sim \int_\Theta f(x|\theta) \pi(\theta|x^\text{obs})\,\text{d}\theta$

您的一些困惑可能源于直接从 p 值为 0.05 的事实中获取数字 95/5 - 这是您在做什么？我不相信这是正确的。例如，t 检验的 p 值反映了在零假设实际上为真时获得观察到的均值或更极端差异的机会。如果你得到 0.02 的 ap 值，你会说‘啊，如果 null 为真，那么只有 2% 的机会得到这样的差异，或者更大的差异。这似乎不太可能，所以我建议空值不正确！'。这些数字与贝叶斯因子不同，贝叶斯因子是每个竞争假设的后验概率之比。这些后验概率的计算方式与 p 值不同，

作为旁注，我建议强烈反对将不同的 BF 值视为特定事物的含义。这些分配是完全任意的，就像 0.05 显着性水平一样。如果人们开始相信只有特定的数字值得考虑，那么使用贝叶斯因子同样容易出现 p-hacking 等问题。试着去理解它们是什么，比如相对概率，并用你自己的感觉来确定你是否找到了一个 BF 数字令人信服的证据。

其它你可能感兴趣的问题

上一篇单变量逻辑回归的样本量计算下一篇借用信息究竟意味着什么？