我正在尝试一个分类项目。我已将我的数据(20000ish)拆分为训练集和测试集。在训练集上,我运行了一系列分类,包括 knn 随机森林和 gbm 。这些最多给我大约 20-30% 的准确率。对于每个样本,我生成每个类的概率并制作一个新模型
Knn proba 1, knn proba 2 .... 随机森林 proba 1 等
然后我运行一个随机森林分类器,它对测试集给出了 90% 的准确率。
太棒了!...但是当我将模型用于新数据时,准确性非常差。
在某种程度上,这感觉像是过度拟合的情况,但测试集肯定也应该很差
为什么测试数据可能这么好,而新数据却这么差……我做错了什么?
谢谢克里斯