XGboost 和深度学习模型中 Tweedie 或泊松损失/目标函数的用途是什么

机器算法验证 机器学习 预测 泊松分布 损失函数 tweedie-distribution
2022-03-19 06:46:41

我正在查看 kaggle 中的一些比赛,人们使用 tweedie 损失或泊松损失作为预测销售或预测保险索赔的目标函数。

  1. 有人可以解释使用 tweedie 或 poisson 而不是常规的均方损失作为目标的用途/需要。
  2. 是因为响应变量的分布吗?
  3. 如果响应变量为正且右偏,我们是否应该始终使用 tweedie 或 poisson 而不是均方损失?
1个回答

我曾经为一家主要的意外伤害保险公司专业地开发这些模型,并且可能参与了为您所引用的 Kaggle 比赛之一开发数据。所以我对这个问题的定位相对较好。

有人可以解释使用 Tweedie 或 poisson 而不是常规均方损失作为目标的用途/需要。

这些模型的目标是为保险合同定价。即,我们想知道,对于购买了保险合同的客户,我们公司将为客户支付的总索赔成本是多少。所以让我们X表示我们对已投保的单个客户的所有测量值。

在合同有效期内发生的事情有两种可能性:

  1. 被保险人不提出索赔。在这种情况下,公司不支付任何费用。让我们打电话F计算被保险人在合同期内提出的索赔数量的随机变量。这通常被认为是泊松分布的,作为一个不错的近似值。用行业术语来说,这个随机变量称为频率

  2. 被保险人至少提出一项索赔。然后,对于每项索赔,我们公司都会支付随机金额。让我们表示支付的金额i'th 索赔Si. 这是一个右尾重的连续随机变量。通常假设这些是伽马分布的,因为形状在直觉上是合理的。在行业术语中,这些被称为严重性

综上所述,保险合同支付的金额是一个随机变量:

YX=iFSi

这是一个有趣的小方程,但基本上有一个随机数的和数,根据频率F, 和每个求和Si是随机索赔金额(针对单个索赔)。

如果P是泊松,并且每个Si是伽马分布,这是 Tweedie 分布。合理的假设导致参数假设YX是 Tweedie 分发的。

是因为响应变量的分布吗?

如上所述,有点。它实际上是响应变量的条件分布(所以YX而不是边缘Y),我们从未真正观察到。条件分布的某些特征体现在边缘,例如零处的大点质量。

如果响应变量为正且右偏,我们是否应该始终使用 Tweedie 或 poisson 而不是均方损失?

没有。这是条件分布YX这指导了损失函数的选择,这通常来自像上面这样的思考和想象。的(边际)分布Y即使条件分布也可能偏斜YX是对称的。例如:

XPoisson(λ=1.0)
YXNormal(μ=X,σ=1.0)

将导致右偏边际分布Y,但使用最小二乘损失是完全正确的。

销售预测是否与索赔示例相同 - 每个销售是泊松的,销售金额是伽马分布的?

我没有在这方面做过任何项目,但这听起来是一种合理的方法。

您能否解释一下,索赔金额如何/为什么遵循伽马分布。

这里没有魔法,没有关于索赔分布的原则性理论。粗略地说,它具有正确的形状:它得到了积极的支持(即P(G0)=0),它是单峰的,并且具有正偏斜;它导致数学上易于处理的模型。仅此而已,这只是一个合理的选择,并且已经运行了很长时间。