当您考虑数据条件分布的简单参数模型(即每个组的分布,或每个预测变量组合的预期分布),并且您正在处理正连续分布时,两个常见的选择是Gamma和对数正常。除了满足分布域的规范(大于零的实数)之外,这些分布在计算上很方便并且通常具有机械意义。
- 对数正态分布很容易通过对正态分布求幂得出(相反,对数转换对数正态偏差给出正态偏差)。从机制的角度来看,当每个观测值反映大量独立同分布随机变量的乘积时,对数正态通过中心极限定理产生。一旦您对数据进行了对数转换,您就可以使用大量的计算和分析工具(例如,任何假设正态性或使用最小二乘法的工具)。
- 正如您的问题所指出的那样,出现Gamma分布的一种方式是等待时间的分布,直到n具有恒定等待时间的独立事件λ发生。我无法轻易找到保险索赔 Gamma 分布的机械模型的参考,但从现象学(即数据描述/计算方便)的角度来看,使用 Gamma 分布也是有意义的。Gamma 分布是指数族(包括正态但不包括对数正态)的一部分,这意味着广义线性模型的所有机制都可用;它还具有一种特别方便的分析形式。
人们可能会选择其中一个或其他原因还有其他原因 - 例如,分布尾部的“沉重”,这对于预测极端事件的频率可能很重要。还有很多其他积极的、连续的分布(例如,请参阅此列表),但它们往往用于更专业的应用程序。
这些分布中很少有能捕捉到您在上面的边缘分布中看到的多模态,但多模态可以通过将数据分组到观察到的分类预测变量描述的类别来解释。如果没有可观察到的预测因子来解释多模态,人们可能会选择基于(小、离散)数量的正连续分布的混合来拟合有限混合模型。