数据挖掘 - 关于在最终训练中包含错误分类的数据 - 吾爱随笔录 - 问答

关于在最终训练中包含错误分类的数据

数据挖掘监督学习

2022-02-12 22:45:42

我发现最好在交叉验证方面提出我的问题。它是这样的：

假设一个二元分类问题，针对某个学习算法应用了交叉验证。假设CV 训练误差和CV 测试误差均达到 90% 的准确率，表明拟合良好。由于这种性能对于我们的问题是可以接受的，因此我们将训练和验证集组合成最终的完整数据集，并训练最终模型。对于最终数据集，只有训练错误可用，假设我们的示例为 92%。

现在，对于问题：知道最终模型已达到 92% 的准确率，将 8% 的错误分类示例保留在最终数据集中是否有任何目的？既然这些例子是无法学习的，为什么不把它们去掉，只用 92% 的可学习数据重新训练最终模型呢？

笔记

据我所知，上述示例中删除 8% 并不是建模的标准做法。然而，我想知道保留没有学过的例子有什么价值。
为了完成，假设还有另一个独立的测试集来评估最终模型。

1个回答

既然这些例子是无法学习的，为什么不把它们去掉，只用 92% 的可学习数据重新训练最终模型呢？

总的来说，我认为这是一个坏主意，原因如下。话虽如此，了解特定数据集的唯一可靠方法是进行实验。

这将修改数据的分布。如果错误往往更频繁地发生在特定类别或特定特征组合中（这很可能），则模型将不再看到这些情况。有时修改分布可以带来更好的性能（例如，当使用重采样时），但它也可以做相反的事情。所以这是一个对模型性能有未知影响的偏差。
一个更严重的问题是这些错误情况可能对模型很重要。通常错误发生在临界情况下，这些情况通常对于模型学习分离类的最佳方法非常重要。通过删除它们，模型可能更容易在训练期间分离类，但这不是一件好事，因为它没有必要的所有信息来最小化错误。因此，它很可能找不到正确的最佳值，因此会产生更多错误。

其它你可能感兴趣的问题

上一篇在训练/测试拆分之前或之后对信用卡欺诈检测进行欠采样下一篇一层近似长的层序列