混合模型作为预测模型有用吗?

机器算法验证 混合模式 预测模型
2022-01-17 17:51:36

我对混合模型在预测建模方面的优势有点困惑。由于预测模型通常用于预测先前未知观察值的值,因此对我来说很明显,混合模型可能有用的唯一方法是通过其提供总体水平预测的能力(即不添加任何随机效应)。然而,问题是,到目前为止,根据我的经验,基于混合模型的人口水平预测明显低于基于仅具有固定效应的标准回归模型的预测。

那么关于预测问题,混合模型的意义何在?

编辑。问题如下:我拟合了一个混合模型(具有固定效应和随机效应)和仅具有固定效应的标准线性模型。当我进行交叉验证时,我得到以下预测准确性层次结构:1)使用固定和随机效应进行预测时的混合模型(但这当然只适用于具有已知水平的随机效应变量的观察,所以这种预测方法似乎不适用于适合真正的预测应用!);2)标准线性模型;3)使用人口水平预测时的混合模型(因此排除了随机效应)。因此,标准线性模型和混合模型之间的唯一区别在于,由于估计方法不同,系数值略有不同(即两种模型中的效应/预测因子相同,但它们具有不同的相关系数)。

所以我的困惑归结为一个问题,为什么我会使用混合模型作为预测模型,因为与标准线性模型相比,使用混合模型生成人口水平预测似乎是一种劣等策略。

2个回答

这取决于数据的性质,但总的来说,我希望混合模型优于仅固定效应的模型。

举个例子:对日照和麦秆高度之间的关系进行建模。我们对单个茎秆进行了多次测量,但许多茎秆是在同一地点测量的(在土壤、水和其他可能影响高度的物质中相似)。以下是一些可能的模型:

1) 身高~阳光

2)高度~阳光+场地

3) 高度 ~ 阳光 + (1|site)

我们希望使用这些模型来预测新小麦秸秆的高度,并对它们将经历的阳光进行一些估计。我将忽略您为在仅固定效应模型中拥有许多站点而付出的参数惩罚,而只考虑模型的相对预测能力。

这里最相关的问题是您尝试预测的这些新数据点是否来自您测量的站点之一?你说这在现实世界中很少见,但它确实发生了。

A) 新数据来自您测量的站点

如果是这样,模型#2 和#3 将优于#1。他们都使用更多相关信息(平均站点效应)来进行预测。

B) 新数据来自未测量的站点

由于以下原因,我仍然希望模型#3 的表现优于#1 和#2。

(i) 模型 #3 与 #1:

模型#1 将产生偏向于过度代表站点的估计。如果每个站点的点数相似,并且站点样本具有合理的代表性,那么您应该从两者中获得相似的结果。

(ii) 模型 #3 与 #2:

在这种情况下,为什么模型 #3 会比模型 #2 更好?因为随机效应利用了收缩- 站点效应将“收缩”到零。换句话说,与指定为固定效应时相比,将站点效应指定为随机效应时,您会发现其极值更少。当总体均值可以合理地被认为是从正态分布中得出时,这很有用并且可以提高您的预测能力(请参阅统计中的斯坦因悖论)。如果总体均值不符合正态分布,这可能是个问题,但这通常是一个非常合理的假设,并且该方法对小偏差具有鲁棒性。

[旁注:默认情况下,在拟合模型 #2 时,大多数软件会使用其中一个站点作为参考,并估计其他站点的系数,以表示它们与参考的偏差。所以看起来好像没有办法计算整体的“人口效应”。但是您可以通过对所有单个站点的预测进行平均来计算这一点,或者更简单地通过更改模型的编码来计算每个站点的系数。]

跟进 mkt 的出色回应:根据我在健康保险领域开发预测模型的个人经验,将随机效应纳入预测模型(包括机器学习模型)具有许多优势。

我经常被要求根据个人的历史索赔数据建立模型来预测未来的索赔结果(例如,未来的医疗费用、住院时间等)。每个人经常有多个索赔,并具有相关的结果。忽略许多索赔由同一患者共享的事实将在预测模型中丢弃有价值的信息。

一种解决方案是为数据集中的每个成员创建固定效果指标变量,并使用惩罚回归分别缩小每个成员级别的固定效果。但是,如果您的数据中有数千或数百万个成员,从计算和预测的角度来看,更有效的解决方案可能是将多个成员级别的固定效应表示为具有正态分布的单个随机效应项。