为什么经典统计中不使用保持方法(将数据拆分为训练和测试)?

机器算法验证 回归 验证 模型评估 样本外
2022-02-08 00:21:47

在我接触数据挖掘的课堂上,引入了holdout方法作为评估模型性能的一种方法。但是,当我上第一堂线性模型课程时,并没有将其作为模型验证或评估的手段引入。我的在线研究也没有显示任何形式的交叉点。为什么经典统计中不使用holdout方法?

4个回答

一个更有成效的问题可能是“为什么我学习的经典统计中没有使用它?”

根据所教授的水平,该选择的课程内容(和可用时间)可能是由于各种因素的组合。通常,重要的主题被搁置一旁,因为出于某种原因必须教授其他材料,希望它们可能会在以后的科目中涉及。

至少在某种意义上,这个概念早已被各种各样的人所使用。它在某些地区比其他地区更常见。统计数据的许多用途没有将预测或模型选择作为主要组成部分(或者在某些情况下,甚至根本没有),在这种情况下,使用保留样本可能不如预测为重点时那么重要。可以说,它应该在一些相关应用程序的早期阶段获得更广泛的使用,但这与未知不同。

如果您查看专注于预测的领域,那么通过预测您未用于估计模型的数据来进行模型评估的概念肯定是存在的(尽管不是普遍的)。例如,我在 1980 年代所做的时间序列建模当然是这样做的,在这种情况下,最新数据的样本外预测性能尤为重要。那时这当然不是一个新想法,当时有很多这种想法的例子。

例如,在回归(删除残差、PRESS、Jacknife 等)和异常值分析中使用了至少遗漏一些数据的概念。

其中一些想法的数据还早得多。Stone (1974)[1] 指的是 1950 年代和 60 年代关于交叉验证(标题中的单词)的论文。也许更接近你的意图,他提到了 Simon (1971) 对术语“构造样本”和“验证样本”的使用——但也指出“Larson (1931) 在教育倍数中采用了样本的随机划分-回归研究”。

例如,交叉验证和基于预测的统计数据的使用等主题在 70 年代和 80 年代的统计文献中变得越来越频繁,但许多基本思想甚至已经存在了相当长的一段时间然后。

[1]:Stone, M.,(1974)
“统计预测的交叉验证选择和评估”
,皇家统计学会杂志。B 系列(方法论),卷。36,第 2 期,第 111-147 页

为了补充 Glen_b 的答案,经典统计通常强调/强调数据的最佳使用、最佳测试、最佳估计量、充分性等,并且在该理论框架中,很难证明不使用部分信息是合理的!该传统的一部分是强调小样本的情况,在这种情况下坚持实际上是困难的。

例如,费舍尔主要从事遗传学和农业实验,在这些领域,少量的观察是规则。所以他主要接触小数据集的这类问题。

我将从可能介于经典统计学和机器学习之间的应用领域回答:化学计量学,即化学分析的统计学。我将添加两个不同的场景,在这些场景中,坚持并不像在典型的机器学习课程中那么重要。


场景一:

我认为这里的一个关键点是要意识到训练与测试的小样本量存在根本差异:

  • 对于训练,通常情况下的比率:模型复杂度(参数数量)很重要(自由度)
  • 对于测试,测试用例的绝对数量很重要。
    (测试过程的质量必须独立于模型:通过独立测试用例的验证将其视为黑盒)

我的论证需要的第二点是,独立测试用例至关重要的情况是过度拟合。如果模型不够复杂(偏差方差,因此拟合不足),残差可以告诉您与独立案例一样多的总预测误差。

现在,关于“经典”线性模型的统计讲座通常非常强调单变量模型。对于单变量线性模型,训练样本量可能并不小:训练样本量通常是根据模型复杂度来判断的,而线性模型只有两个参数,偏移量和斜率。在分析化学中,我们实际上有一个规范,规定您应该有至少 10 个校准样品来进行单变量线性校准。这确保了模型不稳定性可靠地不是问题的情况,因此不需要保留。

然而,在机器学习以及化学分析中的现代多通道检测器(有时是 10 4 个“通道”,例如在质谱分析中)中,模型稳定性(即方差)是一个重要问题。因此,需要保留或更好的重新采样。


场景二:

一个完全不同的情况是,可以跳过保留,以支持更简单(残差)和更复杂的性能测量的组合。请注意,在(随机)搁置部分数据集并将其排除在训练之外的意义上的保留并不等同于独立测试可以实现的目标。在分析化学中,可能会进行专门的验证实验,其中包括测量性能随时间的下降(仪器漂移),这不能通过保留来测量,并确定传感器在实际工业环境中的性能(而传感器校准)是在实验室对校准样品进行的)。另请参阅https://stats.stackexchange.com/a/104750/4598有关独立测试与保留的更多详细信息。

除了上述出色的讨论之外,还有其他原因导致保持样本在统计中没有并且仍然不经常使用。从发现和模型拟合中保留数据效率低下且浪费信息,在某些情况下,我们的分析结果可以有效地提供您需要的信息,例如对未来可能的模型性能的估计。最简单的例子是线性模型中的残差,我们长期以来一直有一个不受过拟合影响的估计。 是另一个例子。然后是重采样σ2Raddj2这是统计学领域的一项发明。100 次重复 10 倍交叉验证是一个非常公正且 9/10 有效的过程。引导程序是一个几乎没有偏见且完全有效的过程。这两种方法都估计了来自用于构建模型的同一观察流中观察到的未来可能的表现。

该讨论涉及独立样本验证与严格的内部验证(如重采样)。将保留样本的估计性能标记为“外部验证”是一个常见的错误,而通常不是。这将在此处讨论。

贝叶斯建模以另一种方式考虑这一点,即先验信息启动过程,并且基于该信息信任参数“估计”(实际上是分布),并且本身没有过度拟合。