我目前正在阅读机器学习教科书,并且刚刚阅读了一些关于 k-fold 交叉验证的内容,我想知道以下内容。我想估计一个参数,例如惩罚似然法的惩罚参数。为了做到这一点,我可以做两件不同的事情:
我对训练数据进行采样,以便得到同样大的折叠,对于每个折叠,我使用其他折叠作为训练数据来获得估计我将这些估计与实际情况进行比较从有问题的折叠。这个,我为我的参数的每一个有趣的选择做这个,并选择误差最小的参数,平均所有折叠和每个折叠的所有成员。
我对训练数据进行采样,得到 2 个同样大的集合,其中一个用作训练数据来预测另一组的误差。对于每个有趣的 lambda,我都会记录平均误差。然后,我对数据进行重新采样,得到 2 个(不同的)同样大的集合,并在其中重复上述过程。我采样总次数,并对这些进行平均,以获得对最佳参数的估计。
第二种方法看起来相当幼稚,我想知道它是否有问题。一般来说,有没有理由为什么人们更喜欢方法 1 而不是方法 2?是否有计算原因,甚至是统计原因?