机器算法验证 - XGboost 和深度学习模型中 Tweedie 或泊松损失/目标函数的用途是什么 - 吾爱随笔录

机器算法验证机器学习预测泊松分布损失函数 tweedie-distribution

2022-03-19 06:46:41

我正在查看 kaggle 中的一些比赛，人们使用 tweedie 损失或泊松损失作为预测销售或预测保险索赔的目标函数。

1个回答

我曾经为一家主要的意外伤害保险公司专业地开发这些模型，并且可能参与了为您所引用的 Kaggle 比赛之一开发数据。所以我对这个问题的定位相对较好。

有人可以解释使用 Tweedie 或 poisson 而不是常规均方损失作为目标的用途/需要。

这些模型的目标是为保险合同定价。即，我们想知道，对于购买了保险合同的客户，我们公司将为客户支付的总索赔成本是多少。所以让我们 $X$ 表示我们对已投保的单个客户的所有测量值。

在合同有效期内发生的事情有两种可能性：

被保险人不提出索赔。在这种情况下，公司不支付任何费用。让我们打电话 $F$ 计算被保险人在合同期内提出的索赔数量的随机变量。这通常被认为是泊松分布的，作为一个不错的近似值。用行业术语来说，这个随机变量称为频率。
被保险人至少提出一项索赔。然后，对于每项索赔，我们公司都会支付随机金额。让我们表示支付的金额 $i$ 'th 索赔 $S_i$ . 这是一个右尾重的连续随机变量。通常假设这些是伽马分布的，因为形状在直觉上是合理的。在行业术语中，这些被称为严重性。

综上所述，保险合同支付的金额是一个随机变量：

Y ∣ X = \sum_{i \sim F} S_{i}

$Y \mid X = \sum_{i \sim F} S_i$

这是一个有趣的小方程，但基本上有一个随机数的和数，根据频率 $F$ , 和每个求和 $S_i$ 是随机索赔金额（针对单个索赔）。

如果 $P$ 是泊松，并且每个 $S_i$ 是伽马分布，这是 Tweedie 分布。合理的假设导致参数假设 $Y \mid X$ 是 Tweedie 分发的。

是因为响应变量的分布吗？

如上所述，有点。它实际上是响应变量的条件分布（所以 $Y \mid X$ ，而不是边缘 $Y$ )，我们从未真正观察到。条件分布的某些特征体现在边缘，例如零处的大点质量。

如果响应变量为正且右偏，我们是否应该始终使用 Tweedie 或 poisson 而不是均方损失？

没有。这是条件分布 $Y \mid X$ 这指导了损失函数的选择，这通常来自像上面这样的思考和想象。的（边际）分布 $Y$ 即使条件分布也可能偏斜 $Y \mid X$ 是对称的。例如：

X \sim Poisson (λ = 1.0)

$X \sim \text{Poisson}(\lambda = 1.0)$

Y ∣ X \sim Normal (μ = X, σ = 1.0)

$Y \mid X \sim \text{Normal}(\mu = X, \sigma = 1.0)$

将导致右偏边际分布 $Y$ ，但使用最小二乘损失是完全正确的。

销售预测是否与索赔示例相同 - 每个销售是泊松的，销售金额是伽马分布的？

我没有在这方面做过任何项目，但这听起来是一种合理的方法。

您能否解释一下，索赔金额如何/为什么遵循伽马分布。

这里没有魔法，没有关于索赔分布的原则性理论。粗略地说，它具有正确的形状：它得到了积极的支持（即 $P(G \leq 0) = 0$ )，它是单峰的，并且具有正偏斜；它导致数学上易于处理的模型。仅此而已，这只是一个合理的选择，并且已经运行了很长时间。

其它你可能感兴趣的问题