分类器总是错误地预测相同的样本是否正常?

数据挖掘 分类 随机森林
2022-02-14 08:05:00

我正在尝试提高分类器的准确性,即随机森林分类器。我用相同的超参数构建了不同的模型,但随机种子不同,用相同的训练数据训练它们,使用相同的测试数据进行预测并比较结果。我发现 50% 的错误总是发生在相同的样本上。因此,这些总是被错误预测的样本是否值得特别关注,或者它是一种逻辑?

我希望这个问题足够清楚。

1个回答

考虑到你的方法,你所经历的很正常。随机森林是决策树的集合,其中使用自举样本并行训练模型(一种称为装袋的技术)。即使决策树是随机的(可以在这个问题中找到对 random_state 的详细解释),它们仍然依赖于内部标准(例如默认情况下的Gini 指数RandomForestClassifier)来分割节点并定义决策路径。无论随机状态如何,您的某些样本始终被错误分类这一事实表明它们在使用此特定标准时存在客观困难。

因此,这些总是被错误预测的样本是否值得特别关注,或者它是一种逻辑?

你的第一个想法是绝对正确的。特别注意集成中错误预测的样本是一种称为提升的技术的目标。主要思想是按顺序训练集成模型,新学习者专注于集成其他部分之前失败的数据点。这个答案中提供了对集成方法的一个很好的概述,我强烈推荐。

就提升算法而言,也有不同的风格:您可能想尝试 sklearn 的AdaBoost梯度树提升实现,或XGBoost这些可能会帮助您最终击败那些讨厌的难以分类的样本,但请注意 bagging(您当前的模型)有其自身的好处,而 boosting 则缺乏这些好处。