机器算法验证 - 如何处理二项式数据的欠离散度 - 吾爱随笔录

我正在使用一个非常大的数据集（n = 4,500），其中 10% 的点（GIS 景观中的像素）为 1，其余为 0。我的数据的完整模型如下所示：

model.full = glm(pond ~ elev + slope + 
     landform + strmord + wcover, 
     family=binomial, data)

自变量为高程、坡度和植被覆盖（均为连续）、地形（第 4 类水平）和河流顺序（第 4 类水平）。响应是一个变量，如果像素被动物使用，则其值为 1，否则为 0。

剩余偏差的值为 2220.6 和 4420 df。这略高于 0.5，这意味着我的数据分散不足。我有两个问题：