关于在最终训练中包含错误分类的数据

数据挖掘 监督学习
2022-02-12 22:45:42

我发现最好在交叉验证方面提出我的问题。它是这样的:

假设一个二元分类问题,针对某个学习算法应用了交叉验证。假设CV 训练误差CV 测试误差均达到 90% 的准确率,表明拟合良好。由于这种性能对于我们的问题是可以接受的,因此我们将训练和验证集组合成最终的完整数据集,并训练最终模型。对于最终数据集,只有训练错误可用,假设我们的示例为 92%。

现在,对于问题:知道最终模型已达到 92% 的准确率,将 8% 的错误分类示例保留在最终数据集中是否有任何目的?既然这些例子是无法学习的,为什么不把它们去掉,只用 92% 的可学习数据重新训练最终模型呢?

笔记

  • 据我所知,上述示例中删除 8% 并不是建模的标准做法。然而,我想知道保留没有学过的例子有什么价值。
  • 为了完成,假设还有另一个独立的测试集来评估最终模型。
1个回答

既然这些例子是无法学习的,为什么不把它们去掉,只用 92% 的可学习数据重新训练最终模型呢?

总的来说,我认为这是一个坏主意,原因如下。话虽如此,了解特定数据集的唯一可靠方法是进行实验。

  • 这将修改数据的分布。如果错误往往更频繁地发生在特定类别或特定特征组合中(这很可能),则模型将不再看到这些情况。有时修改分布可以带来更好的性能(例如,当使用重采样时),但它也可以做相反的事情。所以这是一个对模型性能有未知影响的偏差。
  • 一个更严重的问题是这些错误情况可能对模型很重要。通常错误发生在临界情况下,这些情况通常对于模型学习分离类的最佳方法非常重要。通过删除它们,模型可能更容易在训练期间分离类,但这不是一件好事,因为它没有必要的所有信息来最小化错误。因此,它很可能找不到正确的最佳值,因此会产生更多错误。