他们为什么要在这里选择伽马分布?

机器算法验证 伽马分布
2022-01-22 08:11:10

在我课程的一个练习中,我们使用了Kaggle 医学数据集

练习说:

我们想要对单个电荷的分布进行建模,并且我们也真的希望能够捕捉到我们对该分布的不确定性,以便我们能够更好地捕捉我们可能看到的值的范围。加载数据并执行初始视图:

阴谋

我们可能从上面怀疑这里有某种指数分布。...保险索赔费用可能是多式联运的。伽马分布可能适用,我们可以首先测试不是保险索赔的费用分布。

查找了“伽玛分布”,发现“一个连续的、仅正的、单峰分布,它编码了在泊松过程中发生«alpha»事件所需的时间,平均到达时间为«beta»”

这里不涉及时间,只是不相关的费用,无论是否有保险。

为什么他们会选择伽马分布?

1个回答

当您考虑数据条件分布的简单参数模型(即每个组的分布,或每个预测变量组合的预期分布),并且您正在处理正连续分布时,两个常见的选择是Gamma对数正常除了满足分布域的规范(大于零的实数)之外,这些分布在计算上很方便并且通常具有机械意义。

  • 数正态分布很容易通过对正态分布求幂得出(相反,对数转换对数正态偏差给出正态偏差)。从机制的角度来看,当每个观测值反映大量独立同分布随机变量的乘积时,对数正态通过中心极限定理产生。一旦您对数据进行了对数转换,您就可以使用大量的计算和分析工具(例如,任何假设正态性或使用最小二乘法的工具)。
  • 正如您的问题所指出的那样,出现Gamma分布的一种方式是等待时间的分布,直到n具有恒定等待时间的独立事件λ发生。我无法轻易找到保险索赔 Gamma 分布的机械模型的参考,但从现象学(即数据描述/计算方便)的角度来看,使用 Gamma 分布也是有意义的。Gamma 分布是指数族(包括正态但包括对数正态)的一部分,这意味着广义线性模型的所有机制都可用;它还具有一种特别方便的分析形式。

人们可能会选择其中一个或其他原因还有其他原因 - 例如,分布尾部的“沉重”,这对于预测极端事件的频率可能很重要。还有很多其他积极的、连续的分布(例如,请参阅此列表),但它们往往用于更专业的应用程序。

这些分布中很少有能捕捉到您在上面的边缘分布中看到的多模态,但多模态可以通过将数据分组到观察到的分类预测变量描述的类别来解释。如果没有可观察到的预测因子来解释多模态,人们可能会选择基于(小、离散)数量的正连续分布的混合来拟合有限混合模型。