我有一个相对较小的数据集,包含 1432 个样本。
我训练了一个随机森林分类器并执行了 KFold CV。运行 10 Fold CV 的结果如下:
=== 10 Fold Cross Validation Scores ===
CVFold 1 = 90.2%
CVFold 2 = 87.6%
CVFold 3 = 86.7%
CVFold 4 = 86.7%
CVFold 5 = 83.9%
CVFold 6 = 75.8%
CVFold 7 = 87.2%
CVFold 8 = 82.8%
CVFold 9 = 86.1%
CVFold 10 = 89.3%
Mean Cross Validation Score: 85.6%
我只是不知道如何解释为什么某些折叠之间存在如此大的差异,即从第 6 折叠的 75.8% 到第 1 折叠的 90.2%。
我的理解是,分类器发现第 1 折 (90%) 中的样本比第 6 折 (75%) 中的样本更容易分类,但我实际上并不完全确定是否是这种情况。
我知道每种情况都不同,但这种差异是否常见?它可以接受吗?
编辑:关于我的数据的一些细节
我有 5 个不平衡的类:
1级 - 5%
2 级 - 10%
3 级 - 15%
4级 - 60%
5级 - 10%
我正在使用 SMOTE 来平衡课程。