通过删除错误分类的对象来过度拟合?

机器算法验证 机器学习 朴素贝叶斯
2022-04-13 06:28:24

其实这个问题对你来说可能很简单,但我需要学习正确的答案。
如果我用朴素贝叶斯从数据集中删除错误分类的实例(它给出最小的 FP 率),然后在这个过滤的数据集上训练逻辑分类器,它会过拟合吗?

提前致谢。

2个回答

以下不限于NB + LogRes

过度拟合 = 泛化损失。

当您在数据集上训练模型时,您通常假设您用于训练的数据与稍后应用模型的数据具有相似的结构(从过去预测未来的一般假设)。因此,如果您删除部分数据(即错误分类的实例)并在此简化数据集上训练模型,则与测试数据集相比,您有效地改变了数据的结构(因此违反了这个假设)。在这种情况下,可能会发生以下情况(在未简化的测试数据集上测试此模型时):

在最好的情况下,什么都不会发生,例如以下原因:

  • 错误分类的实例仅代表数据空间的一个很小的子空间(对应于第一个模型实现的高精度)
  • 该模型对数据空间的一部分进行了更好的分类,而对另一部分进行了更差的分类,以使它们均匀。

在最坏的情况下,由于过度拟合/泛化能力的损失,质量会迅速下降。该模型过于关注第一步正确分类实例的数据空间部分,因此无法再对数据空间的其余部分做出近似陈述。


我认为您实际上正在寻找的是Boosting,其中将数据空间限制为错误分类的实例(即与您的策略相反)以改进模型。该过程试图通过随后组合不同的(子空间)模型来避免过度拟合,但这仍然是一个问题。

这是一个纯文本解释,带有一个说明性的图形,您可能会觉得有帮助。

朴素贝叶斯和逻辑回归(分类)都是线性分类器。如果您删除所有错误分类的实例,那么您将允许无限数量的分隔符具有 0 训练错误。在逻辑回归的情况下,这转化为您的信息矩阵是奇异的(信息矩阵必须在 GLM 的每次迭代中反转)。

不知道是不是你说的过拟合。