交叉验证类型的优缺点是什么?像k-fold,留下一个等等。
交叉验证技术
数据挖掘
机器学习
交叉验证
2022-02-22 13:01:48
1个回答
正如您现在可能知道的那样,交叉验证是一种方法:
- 将数据集划分为“训练集”和“测试集”
- 将模型拟合到训练集,得到测试的预测误差
- 以一堆不同的“预定义”方式重复(1-2),每次都存储预测误差。
- 平均所有预测错误,以了解您的模型在野外的表现!
基本上,不同交叉验证 (CV) 类型的所有“魔力”都发生在 (3) 处。假设您的数据集有观察。
- 离开out CV 将您的数据集分成一组大小和一个测试,得到预测误差,并对每一个可能的情况重复这个过程大小的数据集子集。
- 离开out CV是请假的特例在哪里
- -fold 交叉 CV 将您的数据集划分为大小相等的分区,第一个训练分区并在最后一个分区上进行测试,得到预测误差。最后的结果是十平均的预测误差。(注意和请假一样出简历。)
至于缺点和优点,基本上只是穷举和速度之间的权衡。我想这取决于你的数据集。穷举的上限基本上是做请假为所有人提供简历. 可能也取决于数据集的线性。根据我的经验,我在使用时没有遇到任何问题-折叠交叉简历。
其它你可能感兴趣的问题