贝叶斯方法在什么时候优于频率学方法?

机器算法验证 贝叶斯 常客
2022-02-03 02:14:17

我真的很想学习贝叶斯技术,所以我一直在尝试自学一点。但是,我很难看出使用贝叶斯技术是否比频率学方法更具优势。例如:我在文献中看到了一些关于如何使用信息先验而其他人使用非信息先验的信息。但是,如果您使用的是非信息性先验(这似乎很常见?)并且您发现后验分布是,比如说,一个 beta 分布......你不能在一开始就拟合一个 beta 分布并调用好吗?我看不出如何构建一个什么都不告诉你的先验分布……嗯,真的能告诉你什么吗?

事实证明,我在 R 中使用的一些方法混合使用了贝叶斯方法和频率方法(作者承认这有些不一致),我什至无法辨别哪些部分是贝叶斯方法。除了分布拟合之外,我什至无法弄清楚您将如何使用贝叶斯方法。有“贝叶斯回归”吗?那会是什么样子?我所能想象的只是一遍又一遍地猜测底层分布,而频率论者会思考一些数据,注视它,看到泊松分布并运行 GLM。(这不是批评......我真的只是不明白!)

所以..也许一些基本的例子会有所帮助?如果您知道一些适合像我这样的真正初学者的实用参考资料,那也将非常有帮助!

4个回答

以下是您比较常客和贝叶斯方法可能感兴趣的一些链接:

简而言之,根据我的理解,给定一组特定的数据,常客认为存在一个真实的、潜在的分布,所述数据是从该分布中生成的。无法获得准确的参数是有限样本量的函数。另一方面,贝叶斯认为我们从对参数的一些假设开始(即使是在不知不觉中),并使用数据来完善我们对这些参数的看法。两者都在尝试开发一个可以解释观察结果并做出预测的模型;区别在于假设(实际的和哲学的)。作为一种简洁、不严谨的陈述,可以说常客相信参数是固定的,数据是随机的。贝叶斯认为数据是固定的,参数是随机的。哪个更好或更可取?要回答这个问题,你必须深入挖掘并意识到每个都需要什么假设(例如参数是否渐近正常?)。

两种方法之间对比的许多有趣方面之一是,很难对我们在常客领域获得的许多量进行正式解释。一个例子是惩罚方法(收缩)越来越重要。当获得惩罚的最大似然估计时,有偏点估计和“置信区间”很难解释。另一方面,使用集中在零附近的先验分布惩罚为零的参数的贝叶斯后验分布具有完全标准的解释。

我从 Stan 用户组窃取了这个批发。Michael Betancourt 就贝叶斯推理中的可识别性提供了这个非常好的讨论,我相信这与您要求对比两个统计学校的要求有关。

贝叶斯分析的第一个区别是先验的存在,即使是弱的,也会将这 4 个参数的后验质量限制在一个有限的邻域中(否则你一开始就没有有效的先验)。尽管如此,您仍然可以具有不可识别性,因为在无限数据的限制下,后验不会收敛到点质量。然而,在非常真实的意义上,这并不重要,因为 (a) 无限数据限制无论如何都不是真实的,并且 (b) 贝叶斯推理不报告点估计,而是报告分布。在实践中,这种不可识别性将导致参数之间存在很大的相关性(甚至可能是非凸性的),但适当的贝叶斯分析将识别这些相关性。即使您报告单个参数边际,您

简单的例子:考虑一个具有参数的模型,其可能性为无论您收集多少数据,可能性都不会收敛到一个点,而是一条线在这条线上的任何一点的条件方差都会非常小,尽管实际上无法真正识别参数。μ1μ2N(x|μ1+μ2,σ)μ1+μ2=0μ1μ2

贝叶斯先验将该线的后验分布限制为长的雪茄形分布。不容易取样,但至少紧凑。一个好的贝叶斯分析将探索整个雪茄,要么确定之间的相关性,要么返回对应于长雪茄在轴上的投影的边际方差,这给出了更多参数的不确定性比条件方差的真实总结。μ1μ2μ1μ2

贝叶斯方法和频率论方法之间的主要区别在于概率的定义,因此如果有必要将概率严格视为长期频率,那么频率论方法是合理的,如果不是,那么您应该使用贝叶斯方法。如果任何一种解释都可以接受,那么贝叶斯和频率论方法可能是合理的。

另一种说法是,如果您想知道可以从特定实验中得出什么推论,那么您可能想成为贝叶斯;如果您想对一些实验群体(例如质量控制)得出结论,那么频率论方法非常适合。

本质上,重要的是要知道你想回答什么问题,并选择最直接回答问题的分析形式。