我有一个关于使用我的数据创建模型的正确分布的问题。我对 50 个地块进行了森林清查,每个地块为 20m × 50m。对于每个地块,我估计了遮蔽地面的树冠百分比。每个地块都有一个值,以百分比表示,用于树冠覆盖。百分比范围从 0 到 0.95。我正在制作一个树冠覆盖百分比模型(Y变量),其中包含一个基于卫星图像和环境数据的独立X变量矩阵。
我不确定是否应该使用二项分布,因为二项式随机变量是n 个独立试验的总和(即伯努利随机变量)。百分比值不是试验的总和;它们是实际百分比。我应该使用伽玛吗,即使它没有上限?我应该将百分比转换为整数并使用泊松作为计数吗?我应该坚持使用高斯吗?我在文献或教科书中没有找到很多试图以这种方式模拟百分比的例子。任何提示或见解表示赞赏。
谢谢您的回答。事实上,beta 发行版正是我所需要的,并且在本文中进行了深入讨论:
Eskelson, BN, Madsen, L., Hagar, JC, & Temesgen, H. (2011)。使用 Beta 回归和 copula 模型估计河岸林下植被覆盖。森林科学,57(3),212-221。
这些作者使用 Cribari-Neto 和 Zeileis 在 R 中的 betareg 包。
以下文章讨论了一种在百分比范围内包含真 0 和/或 1 时转换 beta 分布响应变量的好方法:
- Smithson, M. 和 J. Verkuilen, 2006。更好的柠檬榨汁机?具有β分布因变量的最大似然回归,心理学方法,11(1):54-71。