如果它给你很好的预测能力,稍微过拟合可以吗?

机器算法验证 回归 物流 过拟合
2022-04-09 18:45:56

我有 2 个相关性约为 0.51 的变量。在测试数据集中,1 的估计值从 +ve 变为 -ve。但是将它们都保留在模型中给了我很好的预测能力。将它们都保留在模型中可以吗?或者它可能会导致一些错误的结果?

2个回答

你怎么知道你的模型过拟合了?如果一个“过度拟合”模型(我们称之为模型A)比您认为非过度拟合的某些基准模型(称之为模型B )真正为您提供更好的预测能力(没有作弊,诚实的样本评估),我会怀疑模型B实际上是拟合的,而模型A

  1. 比模型B欠拟合少
  2. 非过度拟合或可能
  3. 稍微过拟合(但不如模型B欠拟合严重)。

因此,如果您必须选择两者之一,我会说使用模型A代替模型B是可以的。

关于是保留两个预测变量还是放弃一个,我建议根据样本外绩效评估做出选择。如果包含两者的模型提供更好的预测,请选择它。

正如 user1320502 在评论中建议的那样,听起来您的问题是共线性而不是过度拟合。

你知道这两个变量是从哪里来的吗?例如,如果一个是一个是,则将变量居中可能会有所帮助。xx2

如果您只关心预测,那么共线性不是直接问题。但是,如果您查看其他事物(置信区间等),共线性会影响事物。

您可能会查看类似的问题,例如:

如何解决OLS回归中的共线性问题?

如何防止共线性?(问题是关于防止共线性,但请参阅 Aleksandr Blekh 的回答,如果您一开始没有防止共线性,则该回答谈到处理共线性。

构建预测回归模型时多重线性回归假设的重要性(请参阅 OP 对 Michael Bishop 的回答的评论:嵌套 CV)