为什么我们从不在常规统计教科书中学习交叉验证?

机器算法验证 机器学习 数理统计 交叉验证
2022-03-11 22:41:24

我阅读了各种统计/生物统计教科书,包括 Casella 和 Lehmann 关于回归的书籍章节。大多数时候,教科书会在针对某个模型进行回归后报告参数显着性的p值。然后是随后的模型选择程序。

但是,这些书永远不会涉及交叉验证 (CV) 或谈论使用测试/训练拆分。我从机器学习书籍中学习了 CV 和Monte Carlo 交叉验证(MCCV),而且我很少看到有关 CV 的统计书籍。

为什么我们没有在统计数据中教授交叉验证?还是一般统计学家不这样做?或者以某种方式,模型选择过程变得优于使用测试数据进行模型选择?生物统计学家/执业统计学家通常在模型选择中使用 CV 吗?

4个回答

我不能百分百肯定地说,但我可以给你我的两分钱。

让我们从统计学(如所提到的书中所实践的)和机器学习之间的哲学差异开始。前者(通常但不总是)与某种推理有关。通常有一个潜在参数,例如样本均值或新药的效果,这需要估计以及对估计精度的说明。后者(通常但不总是)避免估计除条件均值之外的任何东西(在某些分类模型的情况下是回归或概率)。

因此,每个上下文中的“模型选择”意味着由于具有不同的目标而略有不同。交叉验证是一种通过估计泛化误差来选择模型的方法。因此,它主要是用于预测建模的工具。但是统计数据(通常,但总是)并不像关心简约性(例如)那样关心泛化错误,因此统计数据不使用 CV 来选择模型。

从统计学家的角度进行预测并不缺少交叉验证。事实上,Frank Harrell 的Regression Modeling Strategies提到了这项技术,但那本书主要关注的是用于临床的预测模型的开发。

主要原因是几乎所有书籍作者都从事推理统计特别是,生物统计在这方面很重要。受监管行业(例如银行业)中使用的许多统计数据也有罪。诸如“是什么原因造成的?这是造成那种情况的原因吗?”之类的问题。通常是从推理的角度提出的。

交叉验证是预测者感兴趣的。如果你遇到一本由预测领域的人写的书,那么你应该看到关于交叉验证的讨论。Hyndman 的书就是一个很好的例子,请参见此处我个人主要在被要求时查看 p 值,在我们的行业中,我们有喜欢这种废话并要求我们展示大量毫无意义的指标的治理人员。

可能性

如果您考虑对概率和统计数据进行非常严格的描述,则前者是关于数学上描述事件发生或命题为真的可能性的可能性。您可以拥有一本关于概率的教科书或课程,而根本无需进入统计学领域。

经典的例子包括从瓮中抽出不同颜色的球,在彩票中组合,或从一副牌中抽牌。

统计数据

因此,统计是关于描述概率分布、总体或从总体中抽取的样本。可以用来描述这些的参数是,例如,平均值标准偏差从这个意义上说,统计数据是关于描述随机变量或任何不一定是随机的样本或总体的观察结果。

采用这种统计观点的教科书将包括这些术语的定义,然后是各种可用于获取可能产生特定样本的参数的估计量(给定概率分布或随机过程),以及如何来判断这些估计的正确性。

现在,一本教科书完全符合统计的定义是完全合理的:描述总体或样本,并使用概率分布来推断我们看到某个样本的情况——而不进入统计建模的世界,交叉验证所属的地方。

为什么不交叉验证?

一些教科书,即使持有上述观点,也可能仍然包含线性回归:它的参数仍然可以被认为是可以从样本中计算出来的估计值。当然,它可以用作预测模型,因此可以进行交叉验证——但是一旦你开始使用交叉验证来判断模型中要包含哪些术语,你就可以摆脱对参数的严格定义线性模型是对总体的估计,从从中抽取的样本计算得出。

因此,您可以说交叉验证已经涉足应用统计领域。

描述性与预测性

在生物学教科书中,重点是 描述相关数据;样本均值是……,这个结果的 p 值是……等等。

在机器学习文本中,重点是生成可以泛化到训练集之外的模型;因此,需要像交叉验证这样的技术来处理该特性。

这有点过于简单化了,但我认为抓住了一些作品相对于其他作品所采取的方法差异的本质。这些差异反映了这些应用统计数据的不同领域的不同优先级和目标。

考虑Lehmann 和 Casella 1998的点估计理论. 他们在第 1 章中以“统计学关注数据的收集及其分析和解释”的声明开始,在我看来,这些作者选择更多地关注将统计数据应用于分析和解释,而不是将统计数据应用于一种可以可靠地推广到其他情况的方式。类似地,他们将“经典推理和决策理论”的结果描述为“这种关于[模型参数的估计值]的陈述可以被视为对数据提供的信息的总结,可以作为指导行动。” - 再次关注更多关于如何描述数据(任何可能作为基础,有一些解释,关于如何指导行动),而不是关于 ML 所涉及问题的性质。

最后,让我强调一下:这是特定作者、问题领域等选择在不同领域关注的问题。