贝叶斯和常客点估计在什么条件下重合?

机器算法验证 贝叶斯 估计 损失函数 常客 决策理论
2022-02-07 12:13:52

在平坦的先验条件下,ML(frequentist - 最大似然)和 MAP(贝叶斯 - 最大后验)估计量重合。

然而,更一般地说,我说的是作为某些损失函数的优化器派生的点估计器。IE

x^(.)=argminE(L(Xx^(y))|y) (Bayesian) 
x^(.)=argminE(L(xx^(Y))|x)(Frequentist)

其中是期望算子,是损失函数(最小化为零),是参数的估计量,给定数据 ,随机变量用大写字母表示.ELx^(y)yx

有人知道的 pdf ,强加的线性和/或无偏性,估计量会在哪里重合?Lxy

编辑

正如评论中所指出的,要使频率问题有意义,需要诸如不偏不倚的公正性要求。平坦的先验也可能是一个共性。

除了一些答案提供的一般性讨论之外,问题实际上还在于提供实际示例我认为一个重要的来自线性回归:

  • OLS,是蓝色(高斯-马尔可夫定理),即它最小化了线性无偏估计器中的常客 MSE。x^=(DD)1Dy
  • 如果是高斯且先验是平坦的,“后验”均值,最小化任何凸损失函数的贝叶斯均值损失。(X,Y)x^=(DD)1Dy

在这里,似乎分别被称为常客/贝叶斯术语中的数据/设计矩阵。D

4个回答

这个问题很有趣,但有点绝望,除非频率估计器的概念是精确的。它绝对不是问题 因为最小化的 答案是对于所有正如Programmer2134 的回答中指出的那样基本问题是对于估计问题没有单一的频率估计器,而不引入补充约束或估计器类别。没有这些,所有贝叶斯估计器也是常客估计器。

x^(.)=argminE(L(x,x^(Y))|x)
x^(y)=xy

正如评论中所指出的,无偏性可能是这样一种约束,在这种情况下,贝叶斯估计量被排除在外。但是这种常客概念与其他常客概念发生冲突,例如

  1. 可接受性,因为 James-Stein 现象表明无偏估计量可能是不可接受的(取决于损失函数和问题的维度);
  2. 重新参数化下的不变性,因为无偏性不会保持在变换下。

加上无偏性仅适用于有限类别的估计问题。我的意思是,某个参数或变换的无偏估计量类大部分时间是空的。θh(θ)

说到可接纳性,另一个常客概念,存在唯一可接纳的估计量是贝叶斯估计量的设置,反之亦然。这种类型的设置与亚伯拉罕沃尔德在 1950 年代建立的完整类定理有关。(这同样适用于最佳不变估计量,即在适当的右 Haar 测度下的贝叶斯。)

通常,频率估计器和贝叶斯估计器并不重合,除非您使用退化平坦先验。主要原因是:频率估计者经常努力做到不偏不倚。例如,常客经常尝试找到最小方差无偏估计量(http://en.wikipedia.org/wiki/Minimum-variance_unbiased_estimator)。同时,所有非退化贝叶斯估计量都是有偏差的(在常客的偏差意义上)。例如,参见http://www.stat.washington.edu/~hoff/courses/581/LectureNotes/bayes.pdf,定理 5。

总结一下:大多数流行的常客估计量都力求不偏不倚,而所有贝叶斯估计量都是有偏的。因此,贝叶斯和常客估计很少重合。

这不是一个完整的答案,但是虽然这两个看起来非常相似,但它们在某种程度上是根本不同的:贝叶斯最小化表达式相对于单个值(即 \text{argmin} 的值,取决于 )。argminx^(y)y

但是,频率论者必须在不知道可能取的每个值,将损失函数最小化这是因为函数的最小值取决于,即使我们必须在不知道的情况下最小化它。(请注意,如果我们简单地将 wrt最小化,我们将简单地得到的最小化值。)因此,频率问题是未定义的。我不确定是否甚至可以使其定义明确。xxf(x,x^)=E(L(xx^(Y))|x)xxf(x,x^)x^x^=x

这个问题可能没有答案。

另一种方法可能是针对手头的任何问题寻求有效确定这两个估计值的方法。贝叶斯方法非常接近这个理想。然而,尽管极小极大方法可用于确定频率点估计,但通常极小极大方法的应用仍然困难,并且在实践中往往不被使用。

另一种选择是将问题重新表述为贝叶斯和常客估计量提供“一致”结果的条件,并尝试确定有效计算这些估计量的方法。这里的“一致”是指贝叶斯和常客估计量源自一个共同的理论,并且两个估计量使用相同的最优性标准。这与试图反对贝叶斯和常客统计非常不同,并且可能使上述问题变得多余。一种可能的方法是针对常客案例和贝叶斯案例,针对给定大小的损失最小化的决策集,即,如

谢弗、乍得 M 和菲利普 B 斯塔克。“构建最佳预期大小的置信区域。” 美国统计协会杂志 104.487 (2009): 1080-1089。

事实证明,通过包含偏好观察和具有大点互信息的参数,这对于常客和贝叶斯案例都是可能的。决策集将不相同,因为所问的问题不同:

  • 独立于什么是真正的参数,限制做出错误决定的风险(常客观点)
  • 给定一些观察结果,限制在决策集中包含错误参数的风险(贝叶斯观点)

然而,如果使用平面先验,这些集合将大量重叠并在某些情况下变得相同。更详细地讨论了这个想法以及有效的实施

Bartels, Christian (2015):通用且一致的信心和可信区域。无花果。 https://doi.org/10.6084/m9.figshare.1528163

对于信息丰富的先验,决策集偏离更多(众所周知,并在上面的问题和答案中指出)。然而,在一致的框架内,可以获得频率测试,保证所需的频率覆盖,但考虑到先验知识。

Bartels, Christian (2017):在频率测试中使用先验知识。无花果。 https://doi.org/10.6084/m9.figshare.4819597

所提出的方法仍然缺乏边缘化的有效实现。