百分比数据分布

机器算法验证 分布 二项分布 伽马分布
2022-02-17 14:33:13

我有一个关于使用我的数据创建模型的正确分布的问题。我对 50 个地块进行了森林清查,每个地块为 20m × 50m。对于每个地块,我估计了遮蔽地面的树冠百分比。每个地块都有一个值,以百分比表示,用于树冠覆盖。百分比范围从 0 到 0.95。我正在制作一个树冠覆盖百分比模型(Y变量),其中包含一个基于卫星图像和环境数据的独立X变量矩阵。

我不确定是否应该使用二项分布,因为二项式随机变量是n 个独立试验的总和(即伯努利随机变量)。百分比值不是试验的总和;它们是实际百分比。我应该使用伽玛吗,即使它没有上限?我应该将百分比转换为整数并使用泊松作为计数吗?我应该坚持使用高斯吗?我在文献或教科书中没有找到很多试图以这种方式模拟百分比的例子。任何提示或见解表示赞赏。


谢谢您的回答。事实上,beta 发行版正是我所需要的,并且在本文中进行了深入讨论:

以下文章讨论了一种在百分比范围内包含真 0 和/或 1 时转换 beta 分布响应变量的好方法:

2个回答

您是对的,二项式分布适用于由有限数量的伯努利试验的“成功”数量产生的离散比例,这使得分布不适合您的数据。您应该使用 Gamma 分布除以该 Gamma 加上另一个 Gamma 的总和。也就是说,您应该使用beta 分布来模拟连续比例。

我在这里的回答中有一个 beta 回归的例子:Remove effect of factor on continuous ratio data using regression in R

更新:
@DimitriyV.Masterov 提出了您提到的数据具有的优点0的,但仅支持 beta 发行版(0, 1). 这就提出了应该如何处理这些值的问题。可以从这个出色的 CV 线程中收集到一些想法:应该向 x 添加多小的数量以避免取 0 的对数?

百分比值表示与样本数量无关的比率。您希望将这些百分比用作因变量,并将卫星图像用作解释变量。然而,我猜不是清单中的 50 个地块都有相似数量的样本。将这些百分比与其他变量相关联的合适模型应考虑测量中的这种不确定性,在具有高样本的地块上给予更多权重。

此外,您的数据的误差分布显然是二项式的。误差方差在边界处最小,这由二项分布捕获。

在我看来,这一切都是使用具有二项式误差模型的 GLM 的典型示例。

“统计:使用 R 的介绍”,克劳利第 14 章准确讨论了这个主题以及如何用 R 分析它。