我正面临遗传编程算法的评估。我正在使用 Proben1 cancer1 数据集来评估由该算法创建的模型。该数据集包含 699 个样本,目前分为 50% 的训练数据、25% 的验证数据和 25% 的测试数据。许多学术文章使用 k-fold 验证来评估结果模型。
我确实了解创建 k 模型以减少错误率百分比的差异。但是,我不明白为什么最好不要执行 x 次保留 (k=2) 方法,其中每次将数据随机划分为训练和测试数据。
我缺乏理解的原因是,我认为用更高阶 k 评估的模型泛化程度较低,因为简单的事实是它们接受了更高百分比的数据训练。
鉴于我的 699 个样本数据集,以下两种方法中哪一种更可取,为什么;
- 训练/验证/测试的划分,也许这重复 x 次随机分配样本到每个集合,测试集为 25%
- 10 倍交叉验证,但测试集只有 10%。