交叉验证技术

数据挖掘 机器学习 交叉验证
2022-02-22 13:01:48

交叉验证类型的优缺点是什么?像k-fold,留下一个等等。

1个回答

正如您现在可能知道的那样,交叉验证是一种方法:

  1. 将数据集划分为“训练集”和“测试集”
  2. 将模型拟合到训练集,得到测试的预测误差
  3. 以一堆不同的“预定义”方式重复(1-2),每次都存储预测误差。
  4. 平均所有预测错误,以了解您的模型在野外的表现!

基本上,不同交叉验证 (CV) 类型的所有“魔力”都发生在 (3) 处。假设您的数据集有n观察。

  • 离开pout CV 将您的数据集分成一组大小np和一个测试p,得到预测误差,并对每一个可能的情况重复这个过程p大小的数据集子集。
  • 离开1out CV是请假的特例p在哪里p=1
  • k-fold 交叉 CV 将您的数据集划分为k大小相等的分区,第一个训练k1分区并在最后一个分区上进行测试,得到预测误差。最后的结果是十k平均的预测误差。(注意k=n和请假一样1出简历。)

至于缺点和优点,基本上只是穷举和速度之间的权衡。我想这取决于你的数据集。穷举的上限基本上是做请假p为所有人提供简历p={1,2,...,n}. 可能也取决于数据集的线性。根据我的经验,我在使用时没有遇到任何问题k-折叠交叉简历。

参考