如果训练数据集比测试数据集小得多,K-fold-cross-validation?

数据挖掘 机器学习 数据集 美国有线电视新闻网 支持向量机 交叉验证
2022-03-12 17:12:30

我是机器学习的初学者,我有一个特殊情况,我只有一个大约 500 张图像的小型训练数据集和一个 10,000 张图像的测试数据集。对训练数据进行 10 倍交叉验证或重复交叉验证是否仍然有意义?或者由于测试数据集很大,这是否不再必要?

提前谢谢了

1个回答

一般来说,在评估模型时,您可以选择进行交叉验证或训练测试拆分,但不能同时进行。您的数据集似乎已经在训练集和测试集之间进行了拆分,因此您似乎隐含地选择了训练-测试拆分。

在您的特定情况下,如果您有理由不信任测试集的结果,则运行交叉验证可能仍然有意义。测试数据中标签的分布是平衡的还是高度倾斜的?测试数据是否代表您可能在生产中看到的示例?如果您的测试数据具有代表性,那么您可能会在测试集上获得更好的准确度估计,而不是运行交叉验证。

但我很困惑。您是如何拥有 500 张图像的训练集和 10,000 张图像的测试集的?如果您可以使用 10,500 个标记示例,那么您可以随意划分它们 - 对吧?为什么不对整组 10,500 张图像进行交叉验证呢?这将为您提供最可靠的准确度估计。