机器算法验证 - 术语“最佳拟合”和交叉验证中使用的“最佳”定义是什么？ - 吾爱随笔录

术语“最佳拟合”和交叉验证中使用的“最佳”定义是什么？

机器算法验证模型选择交叉验证

2022-02-11 20:20:49

如果将非线性函数拟合到一组点（假设每个横坐标只有一个纵坐标），则结果可以是：

一个非常复杂的函数，残差很小
一个非常简单的函数，残差很大

交叉验证通常用于找到这两个极端之间的“最佳”折衷。但“最好”是什么意思？是“最有可能”吗？你将如何开始证明最有可能的解决方案是什么？

我内心的声音告诉我，CV 正在寻找某种最小能量解决方案。这让我想到了熵，我隐约知道它在统计和物理学中都存在。

在我看来，“最佳”拟合是通过最小化复杂性和错误函数的总和来产生的，即

minimising m where m = c(Complexity) + e(Error)

这有道理吗？函数 c 和 e 是什么？

请你能用非数学语言解释，因为我不会懂很多数学。

4个回答

在其他人提供更好的答案之前，我将提供一个简短的直观答案（在相当抽象的层面上）：

首先，请注意，复杂的函数/模型实现了更好的拟合（即具有较低的残差），因为它们利用了数据集的一些局部特征（想想噪声），而这些特征在全球范围内并不存在（想想系统模式）。

其次，在执行交叉验证时，我们将数据分成两组：训练集和验证集。

因此，当我们执行交叉验证时，复杂模型可能无法很好地预测，因为根据定义，复杂模型将利用训练集的局部特征。然而，与验证集的局部特征相比，训练集的局部特征可能会有很大差异，从而导致预测性能不佳。因此，我们倾向于选择能够捕捉训练和验证数据集全局特征的模型。

总之，交叉验证通过选择捕获数据集全局模式的模型并避免利用数据集的某些局部特征的模型来防止过度拟合。

我认为这是一个很好的问题。我将对其进行过渡，以确保我做对了：

似乎有很多方法可以选择复杂度惩罚函数和错误惩罚函数。哪个选择是“最好的”。最好的意思是什么？ $c$ $e$

我认为答案（如果有的话）将使您超越交叉验证。我喜欢这个问题（以及一般的主题）如何与奥卡姆剃刀和对科学至关重要的简约的一般概念很好地联系起来。我绝不是这方面的专家，但我发现这个问题非常有趣。关于这类问题，我所知道的最好的文本是Marcus Hutter 的《通用人工智能》（不过，不要问我任何关于它的问题，我大部分都没读过）。几年前，我参加了 Hutter 的一次演讲，印象非常深刻。

您认为在某处存在最小熵参数是正确的（以某种方式用于复杂性惩罚函数）。Hutter 提倡使用Kolmogorov 复杂性而不是熵。此外，Hutter 对“最佳”的定义（据我所知）是（非正式地）最好地预测未来的模型（即最好地预测未来将观察到的数据）。我不记得他是如何将这个概念形式化的。 $c$

在一般的机器学习视图中，答案相当简单：我们希望构建在预测新数据时具有最高准确度的模型（在训练期间看不到）。因为我们不能直接测试这个（我们没有来自未来的数据），所以我们对这样的测试进行蒙特卡罗模拟——这基本上是交叉验证的想法。

关于什么是准确度可能存在一些问题（例如，业务客户可以声明超调成本为每单位 5 欧元，下冲成本为每单位 0.01 欧元，因此最好构建一个不太准确但更低于目标的模型），但总的来说它是分类中真实答案的相当直观的百分比，并且在回归中广泛使用解释方差。

很多人都有很好的答案，这是我的 0.02 美元。

从统计学上讲，有两种方法可以查看“最佳模型”或“模型选择”：

1 尽可能简单但不简单的解释（Attrib. Einstein）

- This is also called Occam's Razor, as explanation applies here.
- Have a concept of True model or a model which approximates the truth
- Explanation is like doing scientific research

2 预测是兴趣，类似于工程开发。

- Prediction is the aim, and all that matters is that the model works
- Model choice should be based on quality of predictions
- Cf: Ein-Dor, P. & Feldmesser, J. (1987) Attributes of the performance of central processing units: a relative performance prediction model. Communications of the ACM 30, 308–317.

广泛（错误）的概念：

模型选择相当于选择了最好的模型

为了解释，我们应该警惕存在几个（大致）同样好的解释模型的可能性。简单性有助于传达模型中包含的概念以及心理学家所谓的泛化，即在与模型研究的场景非常不同的场景中“工作”的能力。因此，少数型号有溢价。

对于预测：（Ripley 博士）很好的类比是在专家意见之间进行选择：如果您可以访问大量专家小组，您将如何使用他们的意见？

交叉验证负责预测方面。有关 CV 的详细信息，请参阅 BD Ripley博士的此演讲 Brian D. Ripley 博士关于模型选择的演讲

引文：请注意，此答案中的所有内容均来自上面引用的演示文稿。我是这个演示文稿的忠实粉丝，我喜欢它。其他意见可能会有所不同。演讲的标题是：“在大型模型中选择”，由 Brian D. Ripley 博士于 2004 年 3 月 29 日至 30 日在帝国理工学院举行的纪念 John Nelder 80 岁生日的研讨会上发表。

其它你可能感兴趣的问题

上一篇为什么在文本语言识别中使用 n-gram 而不是单词？下一篇为什么机器学习有准确度、精确度或召回率等指标来证明最佳模型，而统计学使用假设检验？