机器算法验证 - 用于估计参数的机器学习的“基本”思想是什么？ - 吾爱随笔录

用于估计参数的机器学习的“基本”思想是什么？

机器算法验证机器学习最大似然损失函数 pac学习

2022-02-07 04:41:52

估计参数的统计“基本”思想是最大似然。我想知道机器学习中的相应想法是什么。

Qn 1. 公平地说，机器学习中用于估计参数的“基本”思想是：“损失函数”

[注：我的印象是机器学习算法通常会优化损失函数，因此会出现上述问题。]

Qn 2：是否有任何文献试图弥合统计学和机器学习之间的差距？

[注：也许，通过将损失函数与最大似然联系起来。（例如，OLS 等价于正态分布误差的最大似然等）]

4个回答

我会逐条给出答案。可以按需提供更多的引用，尽管这并不是真正有争议的。

统计数据不仅仅与最大化（对数）似然性有关。对于那些只是更新他们的后验或通过适当的模型传播他们的信念的有原则的贝叶斯主义者来说，这是令人厌恶的。
很多统计数据都是关于损失最小化的。很多机器学习也是如此。经验损失最小化在 ML 中具有不同的含义。要获得清晰的叙述性观点，请查看 Vapnik 的“统计学习的本质”
机器学习不仅仅是损失最小化。首先，因为ML中有很多贝叶斯；其次，因为 ML 中的许多应用都与时间学习和近似 DP 有关。当然，有一个目标函数，但它的含义与“统计”学习中的含义截然不同。

我不认为这些领域之间存在差距，只是许多不同的方法，都在某种程度上重叠。我觉得没有必要将它们变成具有明确差异和相似之处的系统学科，并且考虑到它们发展的速度，我认为无论如何这都是一个注定要失败的企业。

如果统计是关于最大化可能性的，那么机器学习就是关于最小化损失的。由于您不知道您将在未来数据上产生的损失，因此您可以最小化一个近似值，即经验损失。

例如，如果您有一个预测任务并通过错误分类的数量进行评估，您可以训练参数，以便生成的模型在训练数据上产生最少数量的错误分类。“误分类数”（即 0-1 损失）是一个难以使用的损失函数，因为它不可微，因此您可以使用平滑的“代理”来近似它。例如，对数损失是 0-1 损失的上限，因此您可以将其最小化，结果与最大化数据的条件似然相同。使用参数模型，这种方法等效于逻辑回归。

在结构化建模任务和 0-1 损失的对数损失近似中，您会得到与最大条件似然不同的东西，而是最大化（条件）边际似然的乘积。

为了获得更好的损失近似值，人们注意到训练模型以最小化损失并将该损失用作对未来损失的估计是一种过于乐观的估计。因此，为了更准确（真实的未来损失）最小化，他们在经验损失中添加了一个偏差校正项并将其最小化，这被称为结构化风险最小化。

在实践中，找出正确的偏差校正项可能太难了，因此您在偏差校正项的“精神”中添加了一个表达式，例如，参数的平方和。最后，几乎所有参数机器学习监督分类方法最终都训练模型以最小化以下

$\sum_{i} L(\textrm{m}(x_i,w),y_i) + P(w)$

其中是由向量参数化的模型，接管所有数据点，是您的真实损失的一些计算上很好的近似值，是一些偏差校正/正则化学期 $\textrm{m}$ $w$ $i$ $\{x_i,y_i\}$ $L$ $P(w)$

例如，如果您的，，典型的方法是让 , , ，并通过交叉验证选择 $x \in \{-1,1\}^d$ $y \in \{-1,1\}$ $\textrm{m}(x)=\textrm{sign}(w \cdot x)$ $L(\textrm{m}(x),y)=-\log(y \times (x \cdot w))$ $P(w)=q \times (w \cdot w)$ $q$

我无法发表评论（此评论的适当位置），因为我没有足够的声誉，但问题所有者接受为最佳答案的答案没有抓住重点。

“如果统计是关于最大化可能性的，那么机器学习就是关于最小化损失的。”

可能性是一个损失函数。最大化似然性与最小化损失函数相同：偏差，它只是对数似然函数的 -2 倍。类似地，找到最小二乘解是关于最小化描述残差平方和的损失函数。

ML 和 stats 都使用算法来优化某些函数（广义而言）与数据的拟合。优化必然涉及最小化一些损失函数。

有一个简单的答案——机器学习中没有参数估计！我们不假设我们的模型等价于一些隐藏的背景模型；我们将现实和模型都视为黑盒，并尝试摇动模型盒（官方术语中的训练），使其输出类似于现实盒的输出。

不仅似然的概念，而且基于训练数据的整个模型选择的概念都被优化未见数据的准确性（无论定义什么；原则上是所需使用的优点）所取代；这允许以耦合的方式优化精度和召回率。这导致了泛化能力的概念，这取决于学习者类型以不同的方式实现。

问题二的答案很大程度上取决于定义。我仍然认为非参数统计是连接两者的东西。

其它你可能感兴趣的问题

上一篇带斜率约束的线性回归下一篇样本量与先验对后验的影响之间有什么关系？