如何处理二项式数据的欠离散度

机器算法验证 r 物流 空间的 分散不足
2022-03-24 01:10:20

我正在使用一个非常大的数据集(n = 4,500),其中 10% 的点(GIS 景观中的像素)为 1,其余为 0。我的数据的完整模型如下所示:

model.full = glm(pond ~ elev + slope + 
     landform + strmord + wcover, 
     family=binomial, data)

自变量为高程、坡度和植被覆盖(均为连续)、地形(第 4 类水平)和河流顺序(第 4 类水平)。响应是一个变量,如果像素被动物使用,则其值为 1,否则为 0。

剩余偏差的值为 2220.6 和 4420 df。这略高于 0.5,这意味着我的数据分散不足。我有两个问题:

  1. 这真的是个问题吗?
  2. 有没有办法解决这个问题(即:替代模型结构)?
0个回答
没有发现任何回复~