这是我在玩 Forest Type Cover Kaggle 数据集时得到的混淆矩阵:链接。
在矩阵中,浅色和较高的数字代表较高的错误率,因此您可以看到,在 1 和 0 类之间发生了很多错误分类。
我想知道我可以使用什么样的方法来降低这两个错误率,尽管通过组合随机森林和额外树这两个分类器进行了改进。在这种情况下堆叠会有帮助吗?
数据可以在 https://www.kaggle.com/c/forest-cover-type-prediction/data上找到
这是我在玩 Forest Type Cover Kaggle 数据集时得到的混淆矩阵:链接。
在矩阵中,浅色和较高的数字代表较高的错误率,因此您可以看到,在 1 和 0 类之间发生了很多错误分类。
我想知道我可以使用什么样的方法来降低这两个错误率,尽管通过组合随机森林和额外树这两个分类器进行了改进。在这种情况下堆叠会有帮助吗?
数据可以在 https://www.kaggle.com/c/forest-cover-type-prediction/data上找到
欢迎来到本站!
我认为Ensemble Method非常棘手。当其中一个模型无法正常工作时,Ensemble 的准确性也会下降。
例如,假设您使用 RandomForest(RF) 和 Rpart 进行分类,RF 准确度为 90%,Rpart 准确度为 60%。如果您将这 2 个模型合奏,则合奏精度会下降。
来到你的场景,你需要在堆叠的时候非常小心,你需要选择表现适中的模型,然后将它们堆叠以提高准确性。
0/1 的分布如何,如果它们不平衡,则需要平衡以提高模型的准确性。为了处理不平衡数据情况,我们使用SMOTE、ROSE等包。
特征工程,如添加外部因素或添加新特征,可能会帮助您提高模型的准确性。
如果您有任何其他问题,请告诉我。