为什么我应该将贝叶斯推理与无信息先验一起使用?

机器算法验证 贝叶斯 最小二乘 推理 事先的
2022-02-26 23:22:54

我是博士。学生,目前我正在研究有关向量自回归模型的贝叶斯推理。许多研究人员在谈论无信息先验时,得出的结论是推理的结果与我们使用 OLS 可以获得的结果相同。我的问题是:如果这是真的,为什么我应该使用贝叶斯推理而不是 OLS?

4个回答

首先,没有“无信息先验”之类的东西(我们宁愿谈论“弱信息”先验),每个先验都会为您的模型带来某种假设。另一方面,您的数据提供的信息越多,您的先验影响就越小

但撇开这一点不谈,在“无信息”先验的情况下,模型中的点估计与使用最大似然估计相同(参见线性回归讨论)。那么为什么我们要使用贝叶斯估计和无信息先验呢?好吧,如果您只对点估计感兴趣,那么它基本上是相同的。但是,通过贝叶斯估计,您得到的是参数的后验分布,比使用最大似然法提供的信息要多得多。这是最基本的区别。还有更多的差异,但它们都源于我们有一个完整的概率模型,我们需要一整本书来讨论所有这些。

我会附上@Tim 的回答,但会提供更多细节。

正如蒂姆所说,在先验平坦的情况下,您的点估计将非常相似。如果您的贝叶斯点估计是最大后验 (MAP) 估计,则它始终与根据定义使用 MLE 完全相同。如果您的后验分布是对称且单峰的,那么后验均值也将与 MLE 估计值完全相同。此外,如果后验分布是高斯分布,那么使用 MLE 进行点估计会给您与 MLE 相同的点估计,并且使用 Fisher 的信息来描述协方差会给您返回与后验分布完全相同的分布。

事实上,MLE 理论告诉我们,在某些条件下,对数似然(或具有平坦先验的对数后验密度)将渐近接近二次函数。如果对数后验分布是二次分布,则结果与后验高斯分布完全相同。换句话说,渐近地,使用 MLE 进行推理与使用具有平坦先验的完整后验分布完全相同。

这意味着,如果您要使用平面先验,则只有在担心渐近逼近不够精确时才应考虑使用贝叶斯 MCMC 方法。这是什么时候出现的问题?我敢肯定还有很多其他示例不符合此规则,但我会说您应该关注的最常见情况是每个参数拟合的样本数量很少的情况(回想一下必要的示例之一) MLE 渐近的假设是拟合参数的数量除以观测值变为 0)。例如,考虑混合效应模型。在这些情况下,我们每个主题至少有一个参数(尽管每个主题有很多观察值)。在这种情况下,通常的做法是使用ReML而不是 MLE 估计来获得方差估计,因为众所周知,MLE 方差估计是向下偏差的,并且当您有这么多参数要估计时,就会出现问题。但是,使用贝叶斯方法,就不存在这样的问题:只需从后验中采样,不用担心!

使用贝叶斯方法而不是频率论或似然论方法有几个原因。这对于向量自回归来说更是如此。

首先,让我从一个琐碎的例子开始,在一个琐碎而简单的问题下似乎“没有区别”。该示例来自 Thomas Bayes 解决贝叶斯定理的原始文章。

他的方法涉及一个台球桌,但让我们将其简化为计算机随机数生成。他的例子更好,因为物理学、频率论解释和贝叶斯解释显然是相互关联的。

这是一个两人游戏。第一步是生成一个介于 0 和 1 之间的随机数,记为 $\theta。每轮游戏都会生成一个介于 0 和 1 之间的随机数。如果随机数小于或等于$\theta$,则第一个玩家得分,否则第二个玩家得分。第一个获得六分的玩家获胜。θ. Random numbers will be generated between zero and one for each round of the game. If the random number is less than or equal to θ then the first player scores, otherwise the second player scores. The first player to six points wins.

现在想象一个 5-3 的比分,玩家 2 获胜的几率是多少?正是在这里,Pearson-Neyman Freightist、Fisherian Likelihoodist 和 Bayesian 方法出现了分歧。

对于频率论者和似然论者,玩家二赢得任何一轮的估计概率是 $3/8^{ths}$。玩家二连胜三局的概率是 $$\frac{3}{8}^3.$$ 这大约是玩家二的赔率 18:1。 3/8ths. The probability of player two winning three rounds in a row is

383.
This is approximately 18:1 odds against player two.

对于贝叶斯,问题是不同的。首先,必须解决后验概率,这是一个分布而不是点估计。在 $p(\theta)\propto{1}$ 的平坦先验条件下,二项式似然下的后验概率为 $504\theta^3(1-\theta)^5$。因为这是一个分布,所以我们必须对整个后验进行平均以进行预测并消除关于 $\theta 的不确定性。这通过计算 $$\int_0^1504\theta^3\theta^3(1-\ theta)^5.$$ 额外的 $\theta^3$ 是三连胜的概率,其余的是后验概率。计算得出的赔率是 10:1 对抗第二名获胜的玩家。这与频率论者或似然论者的赔率没有什么不同。此外,使用零假设方法的博彩公司可能是“荷兰预订”,或者更简单地说,p(θ)1, the posterior probability under a binomial likelihood is 504θ3(1θ)5. Because this is a distribution, we must average over the entire posterior to make a prediction and eliminate the uncertainty regarding θ. This is solved by calculating

01504θ3θ3(1θ)5.
The extra θ3 is the probability of winning three in a row, while the rest is the posterior. The resulting calculated odds are 10:1 against the second player winning. That is not trivially different from the Frequentist or Likelihoodist odds. Further, a bookie using null hypothesis methods could be "Dutch booked," or in simpler terms, a gambler or set of gamblers could construct a convex combination of gambles that would create a sure win for themselves due to the calculation differences.

贝叶斯预测不会自动具有与原假设预测相同的值。非贝叶斯方法永远不能随机支配贝叶斯方法,但贝叶斯方法可以随机支配原假设方法。

你应该使用哪个?这取决于您对预测所做的工作。如果您正在测试某种货币制度是否会影响某种产出度量,那么您应该使用零假设方法。如果您打算以某种方式根据结果制定预算或赌博,那么您应该使用贝叶斯方法。贝叶斯解决方案本质上是连贯的和可接受的,也就是说,您可以对它们进行赌博,并且构建估计的风险也同样不小。

确实,如果您的真实模型具有正态分布的数据,那么在平坦的先验条件下,当自变量为三个或更少时,您将获得相同的结果,但对于回归中的三个或更多,情况并非如此。这是由于斯坦因悖论。在这种情况下,您始终可以构建优于零假设方法的贝叶斯模型,尽管您不能使用“平坦”先验,因为它不会整合到统一。

最后,对于宏观经济学和资本市场中的个人来说,非贝叶斯方法不是有效的解决方案。到目前为止,每个人都只是假设基础数据的分布已经存在。它通常是正态的或对数正态的。我写了一篇论文来推导基础数据的分布。我表明没有足够的统计数据,并且最小二乘法会产生严重的估计错误。对于资本市场,它高估了每年 2% 的回报,而低估了每年 4% 的风险。

为了理解这种偏差的严重性,如果一百年前对英国统治下的人们当前的人均收入做出预测,那么这个错误会将印度的人均收入置于西班牙和葡萄牙之间。印度将成为世界上最大的经济体。

尽管这些论文主要是关于股本证券的,但它适用于任何有资本的模型。您可以在https://papers.ssrn.com/sol3/cf_dev/AbsByAuth.cfm?per_id=1541471找到这些论文

除了已经发布的精彩答案之外,在您决定使用哪种方法之前,您必须首先确定您想知道什么。这很重要,因为常客和贝叶斯方法回答不同的问题

在您的示例中,常客担心他们用来计算置信区间的过程的统计特性。他们并不特别关心您从数据中计算出的特定置信区间是否包含您的真实参数。相反,他们关心的是,在使用特定过程计算一百万个置信区间之后,保证其中一定比例包含真实参数。

另一方面,贝叶斯主义者关心可以从您的数据中提取哪些信息。他们想知道在给定特定数据的情况下,间隔必须有多宽,才能包含具有某些预选概率的特定参数。

因此,如果您想量化分析数据的某个过程的统计特性,那么频率论方法就是最好的方法。另一方面,如果您想知道您的特定数据告诉您什么,那么您应该使用贝叶斯方法。

在某些非常具体的条件下,他们都提供了数字上相似的答案这一事实不应影响他们回答不同问题的事实。