我想使用 WAIC 来帮助选择模型,其中模型是具有贝叶斯推理、非平坦先验和 MCMC 估计的简单线性回归。
我目前正在考虑两个这样的线性模型,它们都具有相同的因变量和回归系数的(正态)先验,但一个具有正态似然性,另一个具有 Student-T 似然性(即稳健回归)。我很欣赏诸如 WAIC 之类的信息标准并不是模型选择过程的全部,但我打算将 WAIC 用作此分析的一部分。
然而,当我翻到 Richard McElreath 的“Statistical Rethinking”第 9 章时,他说,
“......使用信息标准来比较具有不同似然函数的模型是很诱人的......不幸的是,WAIC(或任何其他信息标准)无法对其进行分类。问题是偏差是正常化常数的一部分。该常数会影响偏差的绝对幅度,但不会影响对数据的拟合。由于信息标准都基于偏差,它们的大小也取决于这些常数。这很好,只要您比较的所有模型都使用相同的结果分布类型……在这种情况下,当您比较模型时,常数会减去它们的差异。但是,如果两个模型具有不同的结果分布,则不会减去常数,您可能会被 AIC/DIC/WAIC 的差异所误导”
我的问题是,我无法从同一本书中给出的偏差定义中看到或得出这个结果(这些常数),
其中我索引每个观察和只是情况 i 的可能性。
现在,我意识到偏差旨在近似于两个分布之间的 Kullback-Leibler (KL) 散度中的交叉熵项 - 例如,p 表示数据的“真实”分布,q 表示我所隐含的分布模型,
其中交叉熵和偏差表示通过使用分布 q 来描述分布 p 来测量引入的附加熵(或丢失的信息)的尝试。
我可以看到我们无法知道,这是所有被比较模型的常数,但是当对某些估计值进行相对比较时,这个常数项会消失- 即在对偏差进行相对比较时。即使我们使用不同的可能性比较模型,我也希望这是正确的,因为 p 是数据的“真实”分布,并且与模型的可能性没有任何关系 - 这是正确的吗?
所以,总而言之,我可以使用 WAIC 来比较具有不同似然函数的模型,如果不能,为什么不呢?