在我的研究小组中,我们正在讨论是否可以仅通过比较两个错误来判断模型是否存在过度拟合,而无需了解更多关于实验的信息。
ps:我个人对非冗余(即没有重复或非常相似的实例)小型数据集(例如 100 个实例)以及具有很少或没有要调整的参数的分类器(例如决策树)感兴趣(这就是我没有任何验证的原因完全要提的错误)
我曾在一些反对这种可能性的论据中认为,
- 与测试集上的随机误差(换句话说,多数类的误差)进行比较似乎会提供更多信息
- 根据数据的复杂性和噪声水平,过拟合趋势可能会增加或减弱
- 根据分类器,数据可以完美匹配其表示偏差(线性可分离问题与线性回归),或者相反,每个实例都可以完全匹配分类器(k-NN,k=1)
- 集成可以达到 100% 的训练准确率而不影响测试准确率;请参阅第 82 页上的这个明显的悖论:链接
我的结果之一,例如留一法(LOO)(10x10 倍类似)。标准偏差列可以忽略,因为它是 LOO:
classifier train accuracy/std dev test acc./std dev
1. random forest w/ 1000 trees : 1.000/0.000 0.479/0.502
2. k-NN k=5 neighbors : 0.613/0.019 0.479/0.501
3. C4.5 w/ 5 trees : 0.732/0.018 0.500/0.503
4. Random guessing : 0.372/0.005 0.372/0.486
Histogram of classes:
35 <- A
28 <- B
19 <- C
6 <- D
6 <- E
测试集中随机森林预测类别的直方图:
43 <- A
32 <- B
18 <- C
1 <- D
0 <- E