数据挖掘 - 处理混淆矩阵中的不平衡错误率 - 吾爱随笔录

数据挖掘机器学习分类混淆矩阵

2021-09-27 07:26:03

这是我在玩 Forest Type Cover Kaggle 数据集时得到的混淆矩阵：链接。

在矩阵中，浅色和较高的数字代表较高的错误率，因此您可以看到，在 1 和 0 类之间发生了很多错误分类。

我想知道我可以使用什么样的方法来降低这两个错误率，尽管通过组合随机森林和额外树这两个分类器进行了改进。在这种情况下堆叠会有帮助吗？

1个回答

欢迎来到本站！

我认为Ensemble Method非常棘手。当其中一个模型无法正常工作时，Ensemble 的准确性也会下降。

例如，假设您使用 RandomForest(RF) 和 Rpart 进行分类，RF 准确度为 90%，Rpart 准确度为 60%。如果您将这 2 个模型合奏，则合奏精度会下降。

来到你的场景，你需要在堆叠的时候非常小心，你需要选择表现适中的模型，然后将它们堆叠以提高准确性。

0/1 的分布如何，如果它们不平衡，则需要平衡以提高模型的准确性。为了处理不平衡数据情况，我们使用SMOTE、ROSE等包。

特征工程，如添加外部因素或添加新特征，可能会帮助您提高模型的准确性。

如果您有任何其他问题，请告诉我。

其它你可能感兴趣的问题