我正在使用一个非常大的数据集(n = 4,500),其中 10% 的点(GIS 景观中的像素)为 1,其余为 0。我的数据的完整模型如下所示:
model.full = glm(pond ~ elev + slope +
landform + strmord + wcover,
family=binomial, data)
自变量为高程、坡度和植被覆盖(均为连续)、地形(第 4 类水平)和河流顺序(第 4 类水平)。响应是一个变量,如果像素被动物使用,则其值为 1,否则为 0。
剩余偏差的值为 2220.6 和 4420 df。这略高于 0.5,这意味着我的数据分散不足。我有两个问题:
- 这真的是个问题吗?
- 有没有办法解决这个问题(即:替代模型结构)?