准泊松 GLM 中的缩放与偏移

机器算法验证 r 广义线性模型 泊松分布 抵消 准可能性
2022-04-19 00:48:25

最近对保险索赔频率进行了建模,假设 R 中的准泊松分布。我的频率因变量在建模之前计算为每个潜在风险的索赔数量。有人评论说这样做是不正确的,正确的方法是对观察到的索赔数量进行建模,并使用潜在风险作为抵消。

有人可以解释缩放和偏移之间的理论和实践差异吗?我以两种方式运行代码并注意到使用偏移时偏差残差明显更小,但在变量选择方面没有实质性差异。

PS 请注意此处类似但仍然不同的问题。

1个回答

我们可以将 GLM 视为具有两个组成部分,均值模型和方差模型。这在准 GLM 案例中更加明确。

假设平均值与暴露成正比;使用对数链接(我认为您拥有),您可以尝试通过将数据除以曝光或使用对数曝光的偏移量来调整曝光对平均值的影响。两者对均值的影响相同。

但是,根据运行的特定分布*,它们可能对方差产生不同的影响。

*(以及其他驱动因素,如依赖性和未建模效应)

当您除以曝光时,您将方差除以曝光平方(这只是一个基本的方差属性 -Var(Xei)=1ei2Var(X))。等效地,通过曝光缩放会降低与平均值成比例的标准偏差(保持变异系数不变)。这可能适合索赔金额,但不适合索赔计数的准泊松模型。

[例如,用于总索赔支付的模型可能会考虑 Gamma GLM(其方差与均方成正比,或恒定的变异系数)具有对数曝光的偏移量,这将通过曝光因子降低拟合平均值,因此(因为模型的方差与均方成正比)将通过曝光的平方减少方差。因此,对于具有对数链接的 Gamma GLM,这两种方法是相同的;这也适用于其他模型,其中您的均值模型与尺度参数成正比,方差与均值的平方成正比,包括对数正态模型、威布尔模型和许多其他模型。]

对于具有对数链接的准泊松 GLM,在模型中,方差与均值成正比,而不是均方。因此,当您将对数曝光拟合为偏移量时,它会根据模型减少拟合方差 - 与均值的变化成正比。正如我们在上面看到的,当你除以曝光时,你会根据均方来改变它。

如果准泊松模型实际上是您计数的正确模型,那么您当然应该使用对数曝光的偏移量,因为它可以正确地描述对方差的影响,正如 Ben 指出的那样。


然而,对于索赔计数,准泊松模型充其量只是一个粗略的近似值。

如果您具有异质性,则负二项式倾向于更好地模拟变异性,并且它没有与均值成正比的方差;然而,它通常也没有真正捕捉到方差效应——索赔频率的一些重要驱动因素可能会导致与平均值的关系更加紧密。

实际上,曝光不会完全影响与平均值成比例的方差。我们知道的许多影响将使对方差的贡献比平均值增加得更快。

对于计数,准泊松模型中的方差假设至少有时会接近正确;如果你的模型是准泊松,那么如果你除以曝光,你肯定会得到错误的方差(根据你的模型)。

您可以通过考虑通常的模型诊断来评估方差是否与模型拟合时的均值成正比(如果不是,您不应该使用说它是的模型;如果是,那么您应根据您的模型正确处理曝光)。

[当然,暴露可能不会像其他驱动因素那样影响模型中的方差,但这可能会引入比您要处理的数据更多的复杂性。]