支持 [0,1] 的常见连续分布

机器算法验证 分布 连续数据
2022-02-07 11:12:05

问题

我希望了解支持 [0,1] 存在哪些可能的常见统计连续分布。


背景

在我的工作中,我经常遇到介于 0 和 1(均包括在内)之间并且可能向右倾斜的数据。

该数据主要包括通过计算总销售额百分比或转化率(销售额除以页面浏览量)转换为 0 到 1 之间百分比的销售额。

由于我对统计学不是很精通,我总是很难找到最好的分布来解释这些数据。

3个回答

维基百科有一个间隔支持的分布列表

撇开混合物和 0-inflated 和 0-1 inflated 情况(尽管如果您对单位间隔上的数据进行建模,您绝对应该了解所有这些情况),哪些是常见的很难确定(它会因应用领域而异例如),但beta系列、三角形截断法线可能是主要候选者,因为它们似乎用于各种情况。

它们中的每一个都可以在 (0,1) 上定义,并且可以向任一方向倾斜。

每个示例如下所示:

上述每个分布的特定成员的密度函数图,在每种情况下都有轻微的右偏斜

但是,它们经常被使用并不意味着它们适合您所处的任何情况。模型选择应基于多种考虑,但在可能的情况下,理论理解和实践学科领域知识都很重要。

我总是很难找到解释这些数据的最佳分布。

您应该摆脱对“最佳”的担忧,而应专注于“对于当前目的而言足够/足够”。没有像我提到的那样简单的分布真的是对真实数据的完美描述(“所有模型都是错误的......”),对于一个目的来说可能是好的(“......有些有用”)可能是不适合其他目的。


编辑以解决评论中的信息:

如果您有精确的零(或精确的零,或两者兼有),那么您将需要对这些 0 的概率进行建模并使用混合分布(如果您可以有精确的 0,则为 0 膨胀分布)——不应该使用连续分布。

处理简单的混合物并不是那么难您将不再有密度,但 cdf 写下或评估的努力并不比在连续情况下要多得多;同样,分位数也不费力;均值和方差几乎和以前一样容易计算;而且它们很容易模拟。

在单位间隔上采用现有的连续分布并添加一定比例的零(和/或一)总体上是一种非常方便的方法来模拟大部分连续但可以是 0 或 1 的比例。

添加到Glen_b的答案,请注意,如果您正在处理一个连续的随机变量,那么理论上分布是否支持边界作为 (当是连续变量时,请参见)。在现实生活中,由于测量精度问题,您会遇到精确的零和一,常见的解决方法是应用简单的“挤压”变换以将它们移出边界(请参阅在 beta 回归中处理 0,1 值Beta 回归比例数据,包括 1 和 0 )。也可以看看[0,1](0,1)Pr(X=0)=Pr(X=1)=0P[X=x]=0X为什么 beta 回归不能处理响应变量中的 0 和 1?线程进行相关讨论。

因此,在考虑常见的有界分布(如betaKumarshwamy三角形分布等)时,包容性边界不应该让您太担心。

如果,正如您所说,您的数据由于其他原因而精确为零,然后是测量精度问题,那么您正在处理混合类型数据,您应该考虑零膨胀模型,即使用混合分布形式

g(x)={π+(1π)f(x)x=0(1π)f(x)x>0

其中是非零膨胀分布,是控制数据中出现过多零的概率的混合参数,接下来是如果,则用于分布具有非包含边界。您可以轻松地将这条推理线扩展到零和一膨胀模型等。fπf(0)=0g(0)=πf