我正在开展一个项目,我们通过按受访者的响应概率加权调查受访者来执行不响应调整。为了做到这一点,我们需要使用模型(通常是逻辑回归)估计每个受访者的响应概率。本质上,在收到我们所有的调查回复后,我们有一个响应的子集(1s)和一个没有响应的子集(0s),模型的目标是获取这些信息并将 1s 和 0s 更改为概率。
我的同事正在描述当前创建模型的方法,他们使用逐步回归来选择模型,而不涉及任何类型的交叉验证或保留程序。我本来要提到逐步方法通常是如何不受欢迎的,它们是数据挖掘,但后来我想,也许没关系?如果我只想估计我的训练数据的概率(我不关心将这个模型用于未来的数据,也不关心分析系数)是否过度拟合训练数据是否重要? 此外,也许这实际上是我的目标?也许我真的想过度适合?