机器算法验证 - k-fold 交叉验证 vs k 次保留验证 - 吾爱随笔录

我正面临遗传编程算法的评估。我正在使用 Proben1 cancer1 数据集来评估由该算法创建的模型。该数据集包含 699 个样本，目前分为 50% 的训练数据、25% 的验证数据和 25% 的测试数据。许多学术文章使用 k-fold 验证来评估结果模型。

我确实了解创建 k 模型以减少错误率百分比的差异。但是，我不明白为什么最好不要执行 x 次保留 (k=2) 方法，其中每次将数据随机划分为训练和测试数据。

我缺乏理解的原因是，我认为用更高阶 k 评估的模型泛化程度较低，因为简单的事实是它们接受了更高百分比的数据训练。

鉴于我的 699 个样本数据集，以下两种方法中哪一种更可取，为什么；