机器算法验证 - 为什么添加滞后效应会增加贝叶斯层次模型中的平均偏差？ - 吾爱随笔录

为什么添加滞后效应会增加贝叶斯层次模型中的平均偏差？

机器算法验证贝叶斯自相关分层贝叶斯越轨

2022-03-14 23:52:31

背景：我目前正在做一些比较各种贝叶斯层次模型的工作。数据 $y_{ij}$ 是参与者幸福感的数字度量 $i$ 和时间 $j$ . 我有大约 1000 名参与者，每个参与者有 5 到 10 次观察。

与大多数纵向数据集一样，我期待看到某种形式的自相关，即时间上更接近的观察比相距更远的观察具有更大的相关性。简化一些事情，基本模型如下：

y_{i j} \sim N (μ_{i j}, σ^{2})

$y_{ij} \sim N(\mu_{ij}, \sigma^2)$

我在比较无滞后模型的地方：

μ_{i j} = β_{0 i}

$\mu_{ij} = \beta_{0i}$

使用滞后模型：

μ_{i j} = β_{0 i} + β_{1} (y_{i (j - 1)} - β_{0 i})

$\mu_{ij} = \beta_{0i} + \beta_{1} (y_{i(j-1)} - \beta_{0i})$

在哪里 $\beta_{0i}$ 是个人水平的平均值，并且 $\beta_1$ 是滞后参数（即滞后效应将观测值与前一个时间点的偏差与该时间点的预测值相加的倍数）。我还不得不做一些事情来估计 $y_{i0}$ （即，第一次观察之前的观察）。

我得到的结果表明：

滞后参数约为 0.18, 95% CI [ .14, .21]。即，它不为零
当模型中包含滞后时，平均偏差和 DIC 都增加了数百
后验预测检查表明，通过包含滞后效应，模型能够更好地恢复数据中的自相关

所以总而言之，非零滞后参数和后验预测检查表明滞后模型更好；然而，平均偏差和 DIC 表明无滞后模型更好。这让我很困惑。

我的一般经验是，如果您添加一个有用的参数，它至少应该减少平均偏差（即使在复杂性惩罚之后 DIC 没有得到改善）。此外，滞后参数的值为零将实现与无滞后模型相同的偏差。

问题

为什么即使在滞后参数不为零并且改进后验预测检查的情况下，添加滞后效应也会增加贝叶斯分层模型中的平均偏差？

最初的想法

我已经做了很多收敛检查（例如，查看跟踪图；检查跨链和跨运行的偏差结果的变化）并且两个模型似乎都收敛到后验。
我已经进行了代码检查，我将滞后效应强制为零，这确实恢复了无滞后模型偏差。
我还查看了平均偏差减去应在预期值处产生偏差的惩罚，这些也使滞后模型看起来更糟。
也许滞后效应减少了每个人的有效观察次数，从而降低了估计个人水平均值的确定性（ $\beta_{0i}$ ) 这会增加偏差。
也许我在第一次观察之前如何估计隐含时间点存在一些问题。
也许这个数据的滞后效应很弱
我尝试使用lmewith使用最大似然估计模型correlation=corAR1()。滞后参数的估计值非常相似。在这种情况下，滞后模型比没有滞后的模型具有更大的对数似然和更小的 AIC（约 100）（即，它表明滞后模型更好）。因此，这强化了这样一种观点，即添加滞后也应该降低贝叶斯模型中的偏差。
也许贝叶斯残差有什么特别之处。如果滞后模型使用前一个时间点的预测和实际 y 之间的差异，那么这个量将是不确定的。因此，滞后效应将在此类剩余价值的可信区间内运行。

1个回答

以下是我的想法：

如果你能负担得起，我建议直接使用边际可能性（也称为证据）而不是 DIC、BIC、AIC。证据越大，您的模型类的可能性就越大。可能差别不大，但 DIC、BIC、AIC 毕竟只是近似值。
为了检查滞后效应是否导致更大的边际似然，我建议执行以下初始检查：采用包含滞后参数的模型。(a) 将滞后参数固定为 $0.18$ . (b) 将滞后参数设置为零。计算两个模型类的边际似然。模型类 (a) 应该具有较大的边际似然。
让我们更进一步：采用不考虑滞后效应 (c) 的模型并计算其边际似然。接下来，采用包含滞后效应并在滞后参数上有先验的模型类 (d)；计算 (d) 的边际似然。您会期望 (d) 具有更大的边际可能性。那么，如果你不这样做呢？

(1)边际似然将模型类视为一个整体。这包括滞后效应、参数数量、可能性、先验。

(2) 如果附加参数的先验存在相当大的不确定性，那么比较具有不同数量参数的模型总是很微妙的。

(3) 如果你在你的滞后参数的先验中指定的不确定性过大，你会惩罚整个模型类。

(4) 支持负滞后和正滞后概率相等的信息是什么？我认为观察到负滞后的可能性很小，这应该被纳入之前。

(5) 您在滞后参数上选择的先验是一致的。这通常不是一个好的选择：您绝对确定您的参数必须确实位于指定的范围内吗？边界内的每个滞后值真的具有相同的可能性吗？我的建议：使用 beta 分布（如果您确定滞后是有界的；或者如果您可以排除小于零的值，则使用对数正态分布。

(6) 这是一个特殊的例子，其中使用非信息性先验是不好的（查看边际似然）：您将始终偏爱具有较少数量不确定参数的模型；具有更多参数的模型可以做的好或坏并不重要。

我希望我的想法能给你一些新的想法，提示？！

其它你可能感兴趣的问题

上一篇如何获得高斯朴素贝叶斯分类器的特征重要性？下一篇上下文老虎机的成本函数