Beta 和 Binomial 之间的这种联系如何可能?

机器算法验证 r 分布 贝叶斯 连续数据 贝塔分布
2022-03-31 00:07:26

我正在学习统计数据,我已经为此推理了很多天,我为此失眠了。

B(k; n, p)假设我有一个模拟p某些事件的假设值的二项分布:

B(14; 41, 0.5)

在 R 中:

dbinom(14, 41, 0.5) #=> 0.016

所以在英语中,这可以说是“在一系列 41 个 550 个事件中恰好 14 个成功的概率约为 1.6%。好吧,有道理(一个糟糕的假设)。

现在,让我们尝试使用 R 迭代不同的 p 值:

p <- seq(0, 1, by = 0.01)
qplot(
  x = p,
  y = dbinom(14, 41, p)
)

这显然开始形成不同概率值的概率形状:

我知道这不是进行 beta 分布的“正确”方法,因为概率是连续的,并且该图需要整合,它加起来不等于 1,等等。

话虽如此......上面的图表似乎完全“准确”,因为每个单独的值本身都是准确的。

问题 1:就他们用英语描述的内容而言,上面的图表与适当的 beta 分布有何“不同”?

  • 不正确的 beta 分布在说(我认为......)“对于这 100 个精确值,绘制每个概率 (X) 正确的概率 (Y)”
  • 正确的贝塔分布是说(我认为......)“对于所有可能的值,绘制每个概率(X)正确的概率密度(Y)”

问题 2:图表是否以某种方式相关?就像他们可以在他们之间转换吗?从不正确的图表中可以清楚地看出,我可以以非连续方式计算概率的概率,但在第二张图表中,除非我说类似的话,否则我似乎无法做到这一点p > 0.49 & p < 0.51)两个图表怎么可能是“正确的”(据我所知)但在连续图表中选择该项目的概率为 0,而在非连续图表中我可以很好地计算它?

qplot(
  x = p,
  y = dbeta(p, 14, 41)
)

在此处输入图像描述

1个回答

您绘制的函数是 beta 密度函数的内核(即,它是 beta 密度的正倍数)。由于您实际上只是为特定观察到的结果绘制了二项似然函数,因此从贝叶斯的角度来看,您绘制的函数与使用统一先验产生的后验密度成正比pp. 在贝叶斯建模术语中,您在这里说明的是:

贝塔(p|15,28)后部  垃圾桶(14|41,p)可能性×ü(p|0,1)事先的.

Beta(p|15,28)

(另请注意,您的最后一个图似乎只是第一个图的重复。您的 beta 分布代码使用了错误的参数;请参阅beta 分布的参数化以了解为什么参数应该如此处所示。)这个问题的后验密度我们可以使用下面的R代码:

#Plot posterior density
library(ggplot2)
XX <- seq(0, 1, by = 0.001)
DD <- dbeta(XX, shape1 = 15, shape2 = 28)
qplot(XX, DD, geom = 'line') + xlab('p') + ylab('Posterior Density')

在此处输入图像描述