这个问题有点笼统和冗长,但请多多包涵。
在我的应用程序中,我有许多数据集,每个数据集包含约 20,000 个数据点,具有约 50 个特征和一个依赖二进制变量。我正在尝试使用正则化逻辑回归(R 包glmnet)对数据集进行建模
作为分析的一部分,我创建了如下残差图。对于每个特征,我根据该特征的值对数据点进行排序,将数据点分成 100 个桶,然后计算每个桶内的平均输出值和平均预测值。我绘制了这些差异。
这是一个示例残差图:
在上图中,该特征的范围为 [0,1](高度集中在 1)。如您所见,当特征值较低时,模型似乎偏向于高估 1 输出的可能性。例如,在最左边的桶中,模型高估了大约 9% 的概率。
有了这些信息,我想以一种直接的方式改变特征定义,以粗略地纠正这种偏差。更换之类的改动
或者
我怎样才能做到这一点?我正在寻找一种通用方法,以便人类可以快速滚动浏览所有约 50 个图并进行更改,并对所有数据集执行此操作并经常重复以使模型随着数据随时间的推移而保持最新。
作为一个普遍的问题,这甚至是正确的方法吗?谷歌搜索“逻辑回归残差分析”并没有返回很多带有实用建议的结果。他们似乎专注于回答这个问题,“这个模型合适吗?” 并提供各种测试,如 Hosmer-Lemeshow 来回答。但我不在乎我的模型好不好,我想知道如何让它变得更好!