贝叶斯统计的温和方法

机器算法验证 假设检验 贝叶斯
2022-01-17 21:39:37

我最近开始阅读 Bolstad 的“贝叶斯统计简介”第二版。我有一个介绍性的统计课程,主要涵盖统计测试,并且几乎通过了回归分析课程。我可以使用哪些其他书籍来补充我对这本书的理解?

我已经完成了前 100-125 页。之后这本书开始讨论假设检验,这是我非常兴奋的内容,但有几件事让我感到震惊:

  • 在计算中使用概率密度函数。换句话说,如何评估这样的方程。
  • 这整句话:“假设我们对 pi 使用 beta(1,1) 先验。然后给定 y=8,后验密度是 beta(9,3)。原假设的后验概率是……”我相信beta(1,1) 指的是平均值为 1 且标准差为 1 的 PDF?我不明白它将如何变为 beta(9,3) 作为后验密度函数。

我确实了解了先验与后验的概念,并了解如何使用表格手动应用它们。我得到(我认为!)pi 代表假定的人口比例或概率。

我不知道如何将其与我每天遇到的数据联系起来并获得结果。

3个回答

在计算中使用概率密度函数。换句话说,如何评估这样的方程。

我认为您仍然从常客的角度考虑这一点:如果您正在寻找点估计,则后验不会给您。你把 PDF 放进去,你把 PDF 拿出来。您可以通过计算后验分布的统计数据来得出点估计值,但我稍后会谈到这一点。

我确实了解了先验与后验的概念,并了解如何使用表格手动应用它们。我得到(我认为!)pi 代表假定的人口比例或概率。

π(x)是一样的p(x): 都是PDF。π只是习惯上用来表示特定的 PDF 是先验密度。

我怀疑你没有像你想象的那样得到先验和后验,所以让我们把它支持到贝叶斯统计的基本基础:主观概率

主观概率的思想实验

假设我给你一个硬币并问你是否认为这枚硬币是公平的硬币。你听过很多人在概率课上谈论不公平的硬币,但你从未在现实生活中真正见过,所以你回答说:“是的,当然,我认为这是一枚公平的硬币。” 但是,我什至问你这个问题的事实让你有点反感,所以虽然你估计这是公平的,但如果不是这样,你也不会感到惊讶。比你在零钱里发现这枚硬币更不惊讶(因为你认为那都是真正的货币,而且你现在并不真正相信我,因为我表现得很可疑)。

现在,我们进行一些实验。翻转 100 次后,硬币返回 53 个正面。你对它是一枚公平的硬币更有信心,但你仍然对它不是的可能性持开放态度。不同之处在于,如果这枚硬币被证明有某种偏见,现在你会感到非常惊讶。

我们如何在这里代表你之前和之后的信念,特别是关于硬币出现正面的概率(我们将表示θ)? 在频率论者的环境中,你的先前信念——你的零假设——是θ=0.5. 运行实验后,您无法拒绝空值,因此您继续假设是的,硬币可能是公平的。但是,我们如何封装您对硬币公平的信心的变化?在实验之后,您可以打赌硬币是公平的,但在实验之前,您会感到恐惧。

在贝叶斯设置中,您通过不将概率视为标量值而是将其视为随机变量(即函数)来封装您对命题的信心。而不是说θ=0.5我们说θN(0.5,σ2),从而封装了我们对 PDF 方差的信心。如果我们设置一个高方差,我们会说,“我认为概率是 0.5,但如果我在世界上实际观察到的概率远离这个值,我不会感到惊讶。我认为θ=0.5,但坦率地说,我不是很确定。”通过设置较低的方差,我们是在说,“我不仅相信概率是 0.5,而且如果实验提供的值不是很接近θ=0.5。”所以,在这个例子中,当你开始实验时,你有一个高方差的先验。在收到证实你的先验的数据后,先验的平均值保持不变,但方差变得更窄。我们相信θ=0.5运行实验后比以前高得多。

那么我们如何进行计算呢?

我们以 PDF 开始,以 PDF 结束。当您需要报告点估计时,您可以计算后验分布的均值、中值或众数等统计数据(取决于您的损失函数,我现在不会讨论。让我们坚持使用均值)。如果您的 PDF 有一个封闭式解决方案,确定这些值可能很简单。如果后验比较复杂,您可以使用 MCMC 等程序从您的后验中采样,并从您抽取的样本中得出统计数据。

在具有 Beta 先验和二项式似然的示例中,后验的计算简化为非常简洁的计算。鉴于:

  • 事先的:θBeta(α,β)
  • 可能性:X|θBinomial(θ)

然后后验简化为:

  • 后部:θ|XBeta(α+i=1nxi,β+ni=1nxi)

每当您有 beta 先验和二项式似然时,都会发生这种情况,原因应该在DJE提供的计算中显而易见。当特定的先验似然模型总是给出与先验具有相同分布类型的后验时,用于先验和似然的分布类型之间的关系称为共轭许多具有共轭关系的分布对,并且贝叶斯学经常利用共轭来简化计算。给定一个特定的可能性,您可以通过选择一个共轭先验(如果存在并且您可以证明您选择先验的合理性)来使您的生活更轻松。

我相信 beta(1,1) 是指平均值为 1 且标准偏差为 1 的 PDF?

在正态分布的常见参数化中,这两个参数分别表示分布的均值和标准差。但这就是我们参数化正态分布的方式。其他概率分布的参数化非常不同。

Beta 分布通常被参数化为Beta(α,β)在哪里αβ称为“形状”参数。Beta 分布非常灵活,并且根据这些参数的设置方式采用许多不同的形式。为了说明此参数化与您的原始假设有何不同,以下是计算 Beta 随机变量的均值和方差的方法:

XBeta(α,β)E[X]=αα+βvar[X]=αβ(α+β)2(α+β+1)

如您所见,均值和方差不是该分布参数化的一部分,但它们具有封闭形式的解,即输入参数的简单函数。

我不会详细描述其他知名发行版的参数化差异,但我建议您查看一些。任何基本文本,甚至 Wikipedia都应该在某种程度上描述更改参数如何修改分布。您还应该阅读不同分布之间的关系(例如,Beta(1,1)是一样的Uniform(0,1))。

Beta 分布具有以下形式p(θ)=Γ(α)Γ(β)Γ(α+β)θα1(1θ)β1. 一个 beta(1,1) 分布有参数(α,β)=(1,1). (不幸的是,这种统计简写给读者带来了了解特定模型如何参数化的负担!)

具有二项式似然性的 beta 先验(具有二元结果的固定试验次数和固定的成功/失败概率)具有共轭性,它允许后验(先验和似然的乘积)写成:

p(θ|y)=p(y|θ)p(θ)p(y)  Γ(α)Γ(β)Γ(α+β)θα1(1θ)β1(ny)θy(1θ)ny  θα1(1θ)β1θy(1θ)ny θα+y1(1θ)β+ny1 =Γ(α+y1)Γ(β+ny1)Γ(α+β+n1)θα+y1(1θ)β+ny1

对于文本中的特定示例,作者指出数据 n=10 和 y=8 的 beta(1,1) 先验产生 beta(1+8,1+2)=beta(9,3) 后验分布于θ.

这种表达方式很方便,但绝不是必要的。乘以概率密度的方法与乘以其他数学表达式的方法相同;困难来了,因为许多密度乘积不像 beta 先验/二项似然那么容易重写。幸运的是,这就是计算机弥补缺陷的地方。

如果您正在寻找一种更温和的方法,我强烈推荐Kruschke的书,它使用 R 来解释核心概念。这是学习贝叶斯统计的一种非常实用和动手的方法,在他的网站上,您可以找到所有使用的代码。

有人还向我推荐了 Cam.Davidson.Pilon 的文字,还没看,但可以在这里找到。