我正在查看 kaggle 中的一些比赛,人们使用 tweedie 损失或泊松损失作为预测销售或预测保险索赔的目标函数。
- 有人可以解释使用 tweedie 或 poisson 而不是常规的均方损失作为目标的用途/需要。
- 是因为响应变量的分布吗?
- 如果响应变量为正且右偏,我们是否应该始终使用 tweedie 或 poisson 而不是均方损失?
我正在查看 kaggle 中的一些比赛,人们使用 tweedie 损失或泊松损失作为预测销售或预测保险索赔的目标函数。
我曾经为一家主要的意外伤害保险公司专业地开发这些模型,并且可能参与了为您所引用的 Kaggle 比赛之一开发数据。所以我对这个问题的定位相对较好。
有人可以解释使用 Tweedie 或 poisson 而不是常规均方损失作为目标的用途/需要。
这些模型的目标是为保险合同定价。即,我们想知道,对于购买了保险合同的客户,我们公司将为客户支付的总索赔成本是多少。所以让我们表示我们对已投保的单个客户的所有测量值。
在合同有效期内发生的事情有两种可能性:
被保险人不提出索赔。在这种情况下,公司不支付任何费用。让我们打电话计算被保险人在合同期内提出的索赔数量的随机变量。这通常被认为是泊松分布的,作为一个不错的近似值。用行业术语来说,这个随机变量称为频率。
被保险人至少提出一项索赔。然后,对于每项索赔,我们公司都会支付随机金额。让我们表示支付的金额'th 索赔. 这是一个右尾重的连续随机变量。通常假设这些是伽马分布的,因为形状在直觉上是合理的。在行业术语中,这些被称为严重性。
综上所述,保险合同支付的金额是一个随机变量:
这是一个有趣的小方程,但基本上有一个随机数的和数,根据频率, 和每个求和是随机索赔金额(针对单个索赔)。
如果是泊松,并且每个是伽马分布,这是 Tweedie 分布。合理的假设导致参数假设是 Tweedie 分发的。
是因为响应变量的分布吗?
如上所述,有点。它实际上是响应变量的条件分布(所以,而不是边缘),我们从未真正观察到。条件分布的某些特征体现在边缘,例如零处的大点质量。
如果响应变量为正且右偏,我们是否应该始终使用 Tweedie 或 poisson 而不是均方损失?
没有。这是条件分布这指导了损失函数的选择,这通常来自像上面这样的思考和想象。的(边际)分布即使条件分布也可能偏斜是对称的。例如:
将导致右偏边际分布,但使用最小二乘损失是完全正确的。
销售预测是否与索赔示例相同 - 每个销售是泊松的,销售金额是伽马分布的?
我没有在这方面做过任何项目,但这听起来是一种合理的方法。
您能否解释一下,索赔金额如何/为什么遵循伽马分布。
这里没有魔法,没有关于索赔分布的原则性理论。粗略地说,它具有正确的形状:它得到了积极的支持(即),它是单峰的,并且具有正偏斜;它导致数学上易于处理的模型。仅此而已,这只是一个合理的选择,并且已经运行了很长时间。