问题
我希望了解支持 [0,1] 存在哪些可能的常见统计连续分布。
背景
在我的工作中,我经常遇到介于 0 和 1(均包括在内)之间并且可能向右倾斜的数据。
该数据主要包括通过计算总销售额百分比或转化率(销售额除以页面浏览量)转换为 0 到 1 之间百分比的销售额。
由于我对统计学不是很精通,我总是很难找到最好的分布来解释这些数据。
我希望了解支持 [0,1] 存在哪些可能的常见统计连续分布。
在我的工作中,我经常遇到介于 0 和 1(均包括在内)之间并且可能向右倾斜的数据。
该数据主要包括通过计算总销售额百分比或转化率(销售额除以页面浏览量)转换为 0 到 1 之间百分比的销售额。
由于我对统计学不是很精通,我总是很难找到最好的分布来解释这些数据。
维基百科有一个间隔支持的分布列表
撇开混合物和 0-inflated 和 0-1 inflated 情况(尽管如果您对单位间隔上的数据进行建模,您绝对应该了解所有这些情况),哪些是常见的很难确定(它会因应用领域而异例如),但beta系列、三角形和截断法线可能是主要候选者,因为它们似乎用于各种情况。
它们中的每一个都可以在 (0,1) 上定义,并且可以向任一方向倾斜。
每个示例如下所示:
但是,它们经常被使用并不意味着它们适合您所处的任何情况。模型选择应基于多种考虑,但在可能的情况下,理论理解和实践学科领域知识都很重要。
我总是很难找到解释这些数据的最佳分布。
您应该摆脱对“最佳”的担忧,而应专注于“对于当前目的而言足够/足够”。没有像我提到的那样简单的分布真的是对真实数据的完美描述(“所有模型都是错误的......”),对于一个目的来说可能是好的(“......有些有用”)可能是不适合其他目的。
编辑以解决评论中的信息:
如果您有精确的零(或精确的零,或两者兼有),那么您将需要对这些 0 的概率进行建模并使用混合分布(如果您可以有精确的 0,则为 0 膨胀分布)——不应该使用连续分布。
处理简单的混合物并不是那么难。您将不再有密度,但 cdf 写下或评估的努力并不比在连续情况下要多得多;同样,分位数也不费力;均值和方差几乎和以前一样容易计算;而且它们很容易模拟。
在单位间隔上采用现有的连续分布并添加一定比例的零(和/或一)总体上是一种非常方便的方法来模拟大部分连续但可以是 0 或 1 的比例。
添加到Glen_b的答案,请注意,如果您正在处理一个连续的随机变量,那么理论上分布是否支持或边界作为 (当是连续变量时,请参见)。在现实生活中,由于测量精度问题,您会遇到精确的零和一,常见的解决方法是应用简单的“挤压”变换以将它们移出边界(请参阅在 beta 回归中处理 0,1 值和 Beta 回归比例数据,包括 1 和 0 )。也可以看看为什么 beta 回归不能处理响应变量中的 0 和 1?线程进行相关讨论。
因此,在考虑常见的有界分布(如beta、Kumarshwamy、三角形分布等)时,包容性边界不应该让您太担心。
如果,正如您所说,您的数据由于其他原因而精确为零,然后是测量精度问题,那么您正在处理混合类型数据,您应该考虑零膨胀模型,即使用混合分布形式
其中是非零膨胀分布,是控制数据中出现过多零的概率的混合参数,接下来是如果,则用于分布具有非包含边界。您可以轻松地将这条推理线扩展到零和一膨胀模型等。