可以使用 WAIC 来比较具有不同可能性的贝叶斯线性回归模型吗?

机器算法验证 贝叶斯 广义线性模型 模型选择 马尔可夫链蒙特卡罗 哀伤
2022-03-14 05:19:38

我想使用 WAIC 来帮助选择模型,其中模型是具有贝叶斯推理、非平坦先验和 MCMC 估计的简单线性回归。

我目前正在考虑两个这样的线性模型,它们都具有相同的因变量和回归系数的(正态)先验,但一个具有正态似然性,另一个具有 Student-T 似然性(即稳健回归)。我很欣赏诸如 WAIC 之类的信息标准并不是模型选择过程的全部,但我打算将 WAIC 用作此分析的一部分。

然而,当我翻到 Richard McElreath 的“Statistical Rethinking”第 9 章时,他说,

“......使用信息标准来比较具有不同似然函数的模型是很诱人的......不幸的是,WAIC(或任何其他信息标准)无法对其进行分类。问题是偏差是正常化常数的一部分。该常数会影响偏差的绝对幅度,但不会影响对数据的拟合。由于信息标准都基于偏差,它们的大小也取决于这些常数。这很好,只要您比较的所有模型都使用相同的结果分布类型……在这种情况下,当您比较模型时,常数会减去它们的差异。但是,如果两个模型具有不同的结果分布,则不会减去常数,您可能会被 AIC/DIC/WAIC 的差异所误导”

我的问题是,我无法从同一本书中给出的偏差定义中看到或得出这个结果(这些常数),

D(q)=2ilog(qi)

其中我索引每个观察和qi只是情况 i 的可能性。

现在,我意识到偏差旨在近似于两个分布之间的 Kullback-Leibler (KL) 散度中的交叉熵项 - 例如,p 表示数据的“真实”分布,q 表示我所隐含的分布模型,

DKL=Ep[log(p)]E[log(q)]

其中交叉熵和偏差表示通过使用分布 q 来描述分布 p 来测量引入的附加熵(或丢失的信息)的尝试。

我可以看到我们无法知道Ep[log(p)],这是所有被比较模型的常数,但是当对某些估计值进行相对比较时,这个常数项会消失E[log(q)]- 即在对偏差进行相对比较时。即使我们使用不同的可能性比较模型,我也希望这是正确的,因为 p 是数据的“真实”分布,并且与模型的可能性没有任何关系 - 这是正确的吗?

所以,总而言之,我可以使用 WAIC 来比较具有不同似然函数的模型,如果不能,为什么不呢?

2个回答

对于您的具体情况,我会指出学生的 t 包括正态分布作为限制情况(df -> inf)。因此,这两者是嵌套的,并没有真正不同的可能性。正因为如此,我真的认为不需要模型选择——你可以只拟合学生的 t 并将 df 值解释为接近正态性。如果您非常担心过度拟合,请在 df 参数上添加正则化(超)先验。请注意,重新参数化学生 t 中的 df 参数可能很有用,请参见例如Augustynczik 等人。(2017) 森林生态与管理, 401, 192-206 .

一般来说:是的,您可以将不同的可能性与 AIC 或 WAIC 等 IC 进行比较,但有例外。这些例外可能是引用段落的基本思想,但我承认文本足够模糊以造成混淆。

通常,不同的可能性是可比较的(注意,顺便说一句,在文本中使用偏差有点令人困惑,因为偏差通常被定义为与饱和模型的差异,但这里仅表示 log L)。但是,也有一些例外。一些常见的情况是

  1. 数据点数的变化
  2. 更改响应变量的比例(例如对 y 进行对数转换),请参见此处
  3. 改变概率分布的协域,例如比较连续分布和离散分布

我认为 1 是微不足道的(并且很容易纠正)。对于 2,3,认为 p(D|M, parameters) 是 D 的 pdf,因此改变尺度或共域将改变积分,从而改变归一化密度。另请参阅有关 CV 的相关问题,例如此处另一个问题可能是您使用的统计软件没有使用正确归一化的似然值(通常归一化并不重要,因此程序员可能会想放弃它),但我认为这并不常见。

既然您询问了 WAIC,那么如果我们忘记偏差并像 WAIC 论文中那样关注(负)对数分数,这会有所帮助。

首先为了使术语更清楚,作为 y 的函数的 p(y|theta) 是一个观察模型,作为 theta 的函数的 p(y|theta) 是一个可能性。WAIC 和 LOO(通常)关注(对数)连续情况下的预测密度或离散情况下的概率。如果您问“是否可以使用 WAIC(或 LOO)将模型与不同的观察模型进行比较?”,您的问题会更有意义。

  • 您可以比较给定不同离散观测模型的模型,并且只要映射是双射的,它也可以有不同的 y。
  • 你不能混合密度和概率,所以你不能比较给定连续和离散观察模型的模型,除非你从连续模型中计算间隔的概率
  • 您可以比较给定不同连续观察模型的模型,但您必须具有完全相同的 y。如果对 y 进行变换,则需要包括该变换的雅可比行列式。

我再说一遍,您需要专注于观察模型。作为奖励,至少在一种情况下,离散观察模型和连续观察模型具有相同的连续似然性,因此了解似然性无助于确定是否可以比较这两个模型。