如果我只关心训练错误,那么过度拟合是一个问题

机器算法验证 物流 过拟合 逐步回归 训练错误 不回应
2022-03-25 08:40:29

我正在开展一个项目,我们通过按受访者的响应概率加权调查受访者来执行不响应调整。为了做到这一点,我们需要使用模型(通常是逻辑回归)估计每个受访者的响应概率。本质上,在收到我们所有的调查回复后,我们有一个响应的子集(1s)和一个没有响应的子集(0s),模型的目标是获取这些信息并将 1s 和 0s 更改为概率。

我的同事正在描述当前创建模型的方法,他们使用逐步回归来选择模型,而不涉及任何类型的交叉验证或保留程序。我本来要提到逐步方法通常是如何不受欢迎的,它们是数据挖掘,但后来我想,也许没关系?如果我只想估计我的训练数据的概率(我不关心将这个模型用于未来的数据,也不关心分析系数)是否过度拟合训练数据是否重要? 此外,也许这实际上是我的目标?也许我真的过度适合?

1个回答

通过这种类型的倾向评分评估,您可以减少过度拟合的恐惧,但您可能会走得太远。例如,本文从模拟研究得出结论:

应避免过度拟合倾向评分模型,以在个别研究中获得治疗或暴露效应的可靠估计。

如果您正在进行一项调查,您可能希望将调查结果应用于新案例,而不仅仅是描述训练集。只要倾向得分模型的过度拟合可能使调查结果在训练集之外不太适用,您需要考虑到这一点。