贝叶斯统计如何处理先验缺失?

机器算法验证 贝叶斯 事先的 数理统计 哲学的
2022-01-18 11:20:58

这个问题的灵感来自我最近的两次互动,一次在CV中,另一次在Economics.se 中。

在那里,我发布了著名的“信封悖论”的答案(请注意,不是作为正确答案”,而是作为对情况结构的特定假设得出的答案)。一段时间后,一位用户发表了批评性评论,我进行了对话以试图理解他的观点。很明显,他在用贝叶斯的方式思考,并且一直在谈论先验——然后我恍然大悟,我对自己说:“等一下,谁说过任何先验?按照我制定的方式问题,这里没有先验,他们只是不进入图片,也不需要”。

最近在CV里看到了这个回答,关于Statistical Independence的含义。我向作者评论说他的句子

“......如果事件在统计上是独立的,那么(根据定义)我们无法通过观察另一个来了解其中一个。”

是公然错误的。在一次评论交流中,他不断回到(他的话)的问题上

“‘学习’难道不是意味着根据对另一件事的观察来改变我们对一件事的看法吗?如果是这样,独立性(明确地)不排除这一点吗?

再一次,很明显他在思考贝叶斯的方式,他认为我们从一些信念开始(即先验)是不言而喻的,然后问题是我们如何改变/更新它们。但是第一至上的信念是如何产生的呢?

由于科学必须符合现实,我注意到存在的情况是所涉及的人类没有先验(我,一方面,一直走进没有任何先验的情况 - 请不要争辩说我确实有先验,但我只是没有意识到,让我们在这里避免虚假的精神分析)。

因为我碰巧听说过“无信息先验”这个词,所以我将我的问题分为两部分,我很确定这里精通贝叶斯理论的用户确切地知道我要问什么:

Q1:没有先验(在严格的理论意义上)是否等同于没有信息的先验?

如果 Q1 的答案是“是”(请详细说明),那么这意味着贝叶斯方法从一开始就普遍适用,因为在任何情况下,所涉及的人都声明“我没有先验”,我们可以补充它的先验位置对于手头的案例没有信息。

但如果 Q1 的答案是“否”,那么Q2就会出现:

Q2:如果Q1的答案是“否”,这是否意味着,在没有先验的情况下,贝叶斯方法从一开始就不适用,我们必须首先通过某种非贝叶斯的方式形成先验,以便我们随后可以应用贝叶斯方法?

4个回答

Q1:没有先验(在严格的理论意义上)是否等同于没有信息的先验?

不。

首先,“无信息先验”没有数学定义。这个词仅用于非正式地描述一些先验。

例如,杰弗里的先验通常被称为“无信息”。这个先验概括了平移不变问题的统一先验。Jeffrey 的先验以某种方式适应模型的(信息论)黎曼几何,因此与参数化无关,仅取决于模型的流形(分布空间中)的几何。它可能被认为是规范的,但这只是一种选择。它只是根据黎曼结构的均匀先验。将“无信息=统一”定义为问题的简化并不荒谬。这适用于许多情况,有助于提出一个清晰而简单的问题。

在没有先验的情况下进行贝叶斯推理就像“我怎么能猜到E(X)没有任何关于分布的假设X只知道X有值[0;1]?” 这个问题显然没有意义。如果你回答 0.5,你可能心里有一个分布。

贝叶斯和常客方法只是回答不同的问题。例如,关于可能是最简单的估计器:

  • 常客(例如):“我如何估计θ这样我的答案有最小的错误(只平均超过x)在最坏的情况下(超过θ)?”。这导致极小极大估计量。

  • 贝叶斯:“我如何估计θ这样我的答案平均误差最小(超过θ) ?”。这导致贝叶斯估计量。但问题是不完整的,必须指定“在什么意义上的平均?”。因此,只有当问题包含先验时,问题才是完整的。

不知何故,常客的目标是最坏情况控制,不需要先验。贝叶斯的目标是平均控制,并且需要先于说“平均在什么意义上?”。

Q2:如果Q1的答案是“否”,这是否意味着,在没有先验的情况下,贝叶斯方法从一开始就不适用,我们必须首先通过某种非贝叶斯的方式形成先验,以便我们随后可以应用贝叶斯方法?

是的。

但要注意规范的先验构造。这在数学上听起来可能很吸引人,但从贝叶斯的角度来看并不是自动现实的。有可能一个数学上很好的先验实际上对应于一个愚蠢的信念系统。例如,如果你学习XN(μ,1), 杰弗里之前μ是统一的,如果大约是人们的平均大小,这可能不是一个非常现实的系统。然而,只有很少的观察,这个问题实际上很快就消失了。选择不是很重要。

在我看来,先前规范的真正问题发生在更复杂的问题中。这里重要的是了解某个先验所说的内容。

首先,贝叶斯方法经常被使用,因为你想在你的模型中包含先验知识来丰富它。如果您没有任何先验知识,那么您将坚持所谓的“无信息”或每周信息先验。请注意,根据定义,统一先验并不是“无信息的”,因为关于统一性的假设一个假设。没有真正没有信息的先验. 在某些情况下,“它可能是任何东西”是一个合理的“无信息”的先验假设,但也有一些情况表明“所有值都同样可能”是一个非常强大且不合理的假设。例如,如果您假设我的身高可以介于 0 厘米和 3 米之间,并且所有值都是先验的,那么这不是一个合理的假设,并且会给极端值赋予过多的权重,所以它可能会扭曲你的臀部。

另一方面,贝叶斯会争辩说,真的没有任何情况下你没有任何先验知识或信念。你总是可以假设一些事情,作为一个人,你一直在做这件事(心理学家和行为经济学家对这个话题进行了大量的研究)。对先验的整个贝叶斯大惊小怪是关于量化这些先入之见并在你的模型中明确说明它们,因为贝叶斯推理是关于更新你的信念

对于抽象问题,很容易提出“无先验假设”论点或统一先验,但对于现实生活中的问题,您将拥有先验知识。如果您需要对信封中的金额进行赌注,您会知道金额必须是非负数和有限的。您还可以根据您对比赛规则的了解、对手可用的资金、信封的实际尺寸以及可以容纳的金额的知识,对可能金额的上限做出有根据的猜测你也可以猜测你的对手可能愿意放入信封并可能松动的金额。有很多事情你会知道作为你之前的基础。

问题1 我认为答案可能是否定的。我的理由是,除了以某种方式衡量最终答案与一些任意信息模型/可能性的距离之外,我们并没有真正定义“信息量不足”。许多无信息的先验是针对“直觉”示例进行验证的,在这些示例中,我们已经记住了“模型/可能性”和“答案”。然后,我们在给我们想要的答案之前询问不提供信息的人。

我的问题是我很难相信某人可以为他们的人口拥有一个非常好的、消息灵通的模型或模型结构,同时对该模型的可能和不太可能的参数值“没有任何信息”。例如使用逻辑回归,请参阅“弱信息默认先验分布。对于逻辑和其他回归模型”

我认为离散统一先验是我们唯一可以合理地说是“第一优先”的先验。但是您在使用它时遇到了问题,认为您“没有信息”,但突然对“不直观”的答案产生反应(提示:如果您不喜欢贝叶斯答案 - 您可能已经将信息排除在先验或可能性!)。您遇到的另一个问题是让离散化适合您的问题。即使考虑到这一点,您也需要知道离散值的数量才能应用离散统一先验。

另一个需要考虑的属性是相对于您使用的可能性的“尾部行为”。

关于问题 2

从概念上讲,我认为在不使用先验或可能性的情况下指定分布没有任何问题。您可以通过说“我的 pdf 是......并且我想计算...... wrt this pdf”来开始一个问题。然后,您正在为先验、先验预测和可能性创建一个约束。贝叶斯方法适用于当您有先验和可能性,并且您希望将它们组合成后验分布时。

这可能是一个清楚你的概率是多少的问题。然后论点转移到“这个 pdf/pmf 是否代表了我所说的它所代表的内容?” - 我想这就是你想要的空间。从您的示例中,您说单个分布反映了所有可用信息 - 没有“先验”,因为它已经(隐含)包含在您正在使用的分布中。

你也可以反向应用贝叶斯——什么“先验”、“可能性”和“数据”给了我正在考虑的实际先验?这是您可以看到的一种方式U(0,1)之前的Bin(n,p)可能性“看起来”对应于一个“后验”Beta(0,0)“之前”与2观察 -1从每个类别。

关于所谓公然错误的评论

老实说,我很想看看如何使用任何观察数来预测“统计独立”的观察。例如,如果我告诉你我将生成 100 个标准正态变量。我给你 99,让你给我最好的预测 100。我说你不能对第 100 个做出比 0 更好的预测。但是如果我没有给你任何数据,你对第 100 个的预测是一样的。因此,您从 99 个数据点中一无所获。

但是,如果我告诉您这是“某种正态分布”,您可以使用 99 个数据点来估计参数。然后数据现在不再“统计上独立”,因为随着我们观察更多数据,我们会更多地了解常见结构。您的最佳预测现在使用所有 99 个数据点

这只是一个简短的评论,作为其他优秀答案的补充。通常,或至少有时,输入统计分析的信息的哪一部分称为数据,哪一部分称为先验,这在某种程度上是任意的(或传统的) 。或者,更一般地说,我们可以说统计分析中的信息来自三个来源:模型数据先验在某些情况下,例如线性模型或 glm,分离是非常清晰的,至少在传统上是这样。

我将以通俗的方式重用最大似然估计 (MLE) 中的一个示例 来说明我的观点。假设患者进入医生办公室,发现一些医疗问题难以诊断。这位医生以前从未见过类似的东西。然后,与患者交谈时,它揭示了一些新信息:该患者最近访问了热带非洲。然后在医生看来,这可能是疟疾或其他一些热带疾病。但请注意,这些信息对我们来说显然是数据,但至少在许多可以使用的统计模型中,它将以先验分布的形式进入分析,先验分布赋予某些热带疾病更高的概率。但是我们也许可以制作一些(更大)、更完整的模型,这些信息作为数据输入。因此,至少在某种程度上,区分数据/先验是常规的。

我们习惯并接受这种约定,因为我们强调某些类别的传统模型。但是,在更大的方案中,在程式化统计模型的世界之外,情况就不太清楚了。