如果贝叶斯概率不是一个信念,它是什么?

机器算法验证 可能性 贝叶斯
2022-03-23 15:12:04

在威廉·布里格斯(William Briggs)的这篇博客中,他似乎是一位多产的流行统计学讲师/作家,他谴责“贝叶斯隐喻”本质上将贝叶斯概率称为信念。

引用关于吸血鬼的帖子,“在贝叶斯推理中,你从一些初始信念开始(称为‘贝叶斯先验’或只是‘先验’),然后在收到新证据时‘更新’它们。”

这是标准的比喻,与其说是无益、误导和限制,不如说是错误的。这个隐喻源自贝叶斯规则(可以在任何地方查找的细节)并给出了一个公式,该公式在右侧应该是代表“先前信念”的元素。公式本身是正确的,就像大多数数学一样。但是,因为数学是正确的并不意味着它意味着你认为它意味着什么。

在我看来,先验是一个“信念”不是一个比喻,而是贝叶斯概率的名副其实的反映。例如,贝叶斯可以概率性地量化常客无法量化的事件,例如量子粒子的位置。我理解贝叶斯规则和贝叶斯统计之间的区别:前者是适用于频率论者和贝叶斯推理的概率定律;后者处理概率的贝叶斯解释。他接着说:

这是错误的,因为没有“Pr(Y)”或“Pr(X)”这样的东西。这些对象不存在。数字可以放在它们的位置上,方程式可以计算出来,但是输入数字的步骤是错误的。没有无条件概率之类的东西,所以我们永远不能写出没有错误的“Pr(Y)”或“Pr(X)”。相反,我们应该写例如 Pr(Y|W) 或 Pr(X|W),其中 W 是我们开始的知识,即我们真正的先验(知识)。

我认为在这一点上——这篇文章似乎与贝叶斯统计没有任何关系。就像常客将不确定性界限置于不确定性界限上一样,贝叶斯类比似乎是在调节条件下。

这个博客合理吗?在指定先验时,“信念”和“知识”之间实际上有区别吗?如果存在条件密度,例如,那么边际密度也存在 ?Pr(Y|W)Pr(Y)=Pr(Y|W)Pr(W)

3个回答

也许作者得到的是区分验分布和个人的后验分布。

假设我们知道我们的一些参数在数据分布之前遵循给定分布是一个事实。然后基于这些参数,我们观察了一些以这些参数为条件的数据,并且我们知道了该条件分布的形式。然后我们可以应用贝叶斯定理并知道所述参数概率分布,以我们看到的数据为条件。

另一方面,传统的贝叶斯统计告诉我们,我们的不确定性可能是先验分布。这很好,我认为大多数现代统计学家对这个概念的看法是零问题。但是,有时最终输出仍然取决于原始先验,这有时会被掩盖,一般来说,没有理由相信下一个人会拥有与您相同的先验。

为了说明,请考虑以下 R/psuedocode 来演示:

# Simulate mean first, then simulate data
simData = function(n = 10){
  # Simulate uniform(0,1)
  rand_unif = runif(1, min = 0, max = 1)
  # Mu is either -1 or 1 with probability 0.5
  if(rand_unif > 0.5){ mu = 1 }
  else{ mu = -1 }
  #Simulate
  output = rnorm(n, mu = mu, sd = 1)
  return(output)
}

现在,如果我提前向您展示此代码并运行该函数,您可以轻松计算mu给定模拟中 = 1 的概率,尽管从未见过它。这无疑是正确的(直到数字错误)。

另一方面,假设您知道代码

# Mu is some value <cliffsFavoriteNumber>
simData = function(n = 10){
  mu = cliffsFavoriteNumber
  #Simulate
  output = rnorm(n, mu = mu, sd = 1)
  return(output)
}

除了我以外的人不知道cliffsFavoriteNumber. 也许乔说“我不认为 Cliff 会选择一个大数字,它必须是一个正整数,所以我会说先验 formu是一个四舍五入的指数”。Bob 认为“Cliff 喜欢 9 的倍数,所以我会说在 9、18、...、81 之前是一致的”。他们可以从中计算出的计算在数学上没有错误,但它们取决于不同人的先验信念,因此最终得出的答案非常不同。因此,Joe 说“后验分布是……”类的话有点误导人。更准确地说是“以相信先验分布为条件mu是一个四舍五入的指数,后验分布将是......”。

问题是你W不能被整合出去。使用你所拥有的所有知识,W,我们形成我们的先验,p(Y|W)。有了这个,我们可以使用贝叶斯定理得到我们的后验 p(Y|XW)。W 只是与我们所有的更新一起标记,但我们实际上并不知道 p(W)。如果我们确实有我们先前信念的概率,我们可以整合 W 出来,但这本身可能会以它自己的先前信念为条件。不管怎样,总是有无法整合的先验信念。

我想指出,许多地方不包括背景知识作为贝叶斯定理的一部分,但它就在那里。正确表达的贝叶斯定理应该是

p(y|xw)=p(x|yw)p(y|w)p(x|w)

看看 w 是如何标记的?

如果先验准确地反映了您对参数的信念,并且您愿意假设数据的模型是正确的,那么后验是在看到数据后更新您的信念的合理方式。

您的数据模型正确的假设是隐含的,有时不讨论,尽管使用条件概率表示法做出假设是没有意义的。诚然,这将引起人们对有时未明确讨论的假设的更多关注。

类似地,被理解为数据在您先前的信念上平均的边际概率。P(X)

不存在是很奇怪的,尽管确实很难以这样一种方式P(Y)P(Y)