我有一个关于使用交叉验证进行模型参数调整(模型训练)和模型评估(测试)的基本问题,类似于机器学习中的模型调整和模型评估
我知道建议只使用训练集(测试集保持“未见”)来调整模型参数(“mtry”,我使用的是随机森林(RF)),即训练集进一步分为训练集和验证集进行k-fold交叉验证以获得最佳参数值。
但是,如果我希望进行 k 折交叉验证以评估模型准确性(在从整个数据集中采样的不同测试集上测试训练模型),我会感到困惑。是否正确的模型评估程序是:
(1)简单地重新运行RF,CV只使用训练集调整参数'mtry'到不同的训练-测试集分区?虽然只有 1(一个)训练集的实现/分区在开始时用于调整“mtry”?或者我应该使用不同的训练集实现来调整“mtry”吗?
(2) 在不用于调整“mtry”的测试集的 1(一)实现(开始时)的不同引导样本上使用调整后的“mtry”运行 RF?
谢谢你,如果我的写作有点混乱,我很抱歉。