我的课程笔记列出了交叉验证具有悲观偏见的两个原因。第一个是针对在较少数据上训练的模型测量准确性,我理解。但是,第二个原因我不明白。假设,当我们进行交叉验证并将我们的数据 D 划分为训练集 D_i 和测试集 T_i 时,在给定 D 的情况下,D_i 和 T_i 不是独立的(甚至是互补的)。
但是,我不明白为什么这与我们使用固定测试集的情况不同:如果我们有一个训练集 D 和一个测试集 T,那么在 D 和 T 的联合下,T 和 D 也不是独立的。这种情况下没有偏见,所以我希望交叉验证也没有偏见(除了模型在较少数据上训练的事实)。当然,由于我们为交叉验证训练的不同模型使用重叠数据,我希望它们的准确性是相关的,这可能会导致更高的方差,但我不明白这会如何产生偏差。