机器算法验证 - 比较机器学习和统计的模型评估 - 吾爱随笔录

比较机器学习和统计的模型评估

机器算法验证机器学习假设检验统计学意义交叉验证

2022-04-09 20:14:14

我是一名机器学习从业者，我大部分时间都在通过 Python 在机器视觉中使用神经网络和遥感数据进行应用，并主要使用基于交叉验证的技术等来评估模型性能。

统计学（当然）是我学习路径的一部分，我熟悉统计学的基本概念，但我并没有积极从事“纯”统计学家的工作，也就是说，使用例如 R/SAS 软件来适应广义线性模型，计算 $t/p$ -值、方差分析和模型协变量的检验统计显着性。

尽管我已经接触这些领域多年，但我仍然不清楚（传统/纯）统计和机器学习之间有何不同。我知道对差异的普遍共识是统计学更关心解释数据，而机器学习 (ML) 则对做出预测感兴趣，即使差异有时很模糊，并且两个领域都使用相同的方法。

现在在 ML 中，通常当我们将一些模型拟合到数据中时，我们关心模型从数据中学习底层模式的能力，并通过使用独立的测试数据集来衡量这种学习。我们永远不想让模型完美地拟合到训练数据中，因为这会导致过度拟合和泛化能力差。因此，ML 中的相关问题（据我所知）从来都不是关于“模型对数据的拟合程度如何？”，而是“模型能够如何预测新情况，即泛化”。

当我听我的统计学家同事讲话时，我注意到他们主要谈论的是 $t/p$ -价值观， $R^2$ -价值观， $F$ -统计数据，方差分析中两组均值的差异等。

对我来说，从 ML 的角度来看，我的统计学家同事似乎完全关心他们的模型/协变量与数据的“拟合优度”，并且没有独立的测试数据集来验证他们的模型。好吧，当然，他们不这样做，因为这不是目标，而是用我们对数据做出的明确假设（常态等通常的假设）来解释数据。

现在，由于我对这个主题缺乏了解，我很可能是错的，但在我看来，为什么“纯”统计学家对这些“拟合优度”统计如此感兴趣，因为不 $p$ -价值观， $R^2$ 等等。基本上最终衡量这个，即模型拟合（假设我们的分布假设是正确的）？例如，我们都知道神经网络是通用逼近器，这意味着我们可以通过在模型中添加足够的神经元来将它们以 100% 的准确率拟合到我们任意选择的任何（连续）函数中。现在，这个通用的逼近神经网络会不会像地狱一样调整到我们的数据中具有巨大的统计意义？ $p$ -值或 $R^2$ -metrics，如果我们从“纯”统计学家的角度来看模型拟合？总而言之，统计学家（是吗？）会得出结论：在这个神经网络场景中，“我们现在发现了一些真正重要的东西”吗？ML 科学家会生成一个独立的测试样本，将其提供给网络，并得出该模型过度拟合训练数据的结论，并且没有发现任何模式。换句话说，机器学习科学家会得出结论“没有发现任何重要的东西”。

可能是我问的太含糊了，这里总结一下：是不是一定程度上统计学家通常更关心模型的拟合优度和相应的显着性指标，而不是模型的泛化能力， ML 科学家反之亦然？

提前感谢您的任何答案，这有助于我消除我的困惑:)

4个回答

在某种程度上，统计学家是否通常更关心模型的拟合优度和相应的显着性指标，而不是模型的泛化能力，反之亦然？

使用“纯”统计数据的科学家和分析师最近因过度关注重要性指标而陷入困境。事实上，在 2017 年，美国统计协会举办了一次统计推断研讨会，在很大程度上讨论了许多统计学家对统计显着性和 p 值的过度依赖。这是最近在科学界相当严重的问题。

但是你的问题很难回答，主要是因为仍然没有就统计学/机器学习/数据科学之间的区别达成一致的定义。2000 年前的一位木匠使用锤子和钉子。现在，木匠使用电钻。电钻发明的时候，开始使用电钻的木匠们有没有改名？他们是否也将“钉子”重命名为“多对象连接设备（MOCD）”并将“锤子”重命名为“手动 MOCD 实施者”？明显不是。那将是荒谬的。然而，机器学习从业者和数据科学家或多或少地做到了这一点，这使得统计和机器学习看起来比实际情况更加不同。

高计算能力、并行处理和新方法变得可用。现在突然一个“变量”变成了一个“特征”！您不再重新编码变量，而是从事特征工程。你说 100 年前使用的“皮尔逊 phi”？不不不，现在是MCC ！名单还在继续。行话的差异通常不能反映基础数学或理论的任何真正差异。

话虽如此，在被称为“统计学家”和“机器学习从业者”的工作重点开始出现分歧的情况下，我认为您会发现它们在很大程度上以您期望的方式分歧。“统计学家”的工作往往在科学上更加保守，专注于理解关系和测试假设。“机器学习”工作往往是在行业中，您的目标是快速有效地处理大量数据，以帮助做出产生预期结果的决策，这很少是科学理解或支持/反对假设的证据。

答案是否定的，您的帖子中的主张太多，不仅针对主要问题。

ML 和 stats 之间的区别是任意的、肤浅的，并不重要。有很多统计学家正在做预测模型，其主要目标当然是预测。统计学家开发了常见的机器学习方法，并在统计期刊上发表。毕竟，最受欢迎的 ML 书籍是《统计学习的要素》。此外，ML 有一个庞大的子领域关注拟合模型的解释和单个变量的影响。我可以告诉你，讨论 ML 和统计数据之间差异的（至少是当代的）论文是愤世嫉俗的引文抓取，并不值得花时间。
ML 和 stats 都关心从数据中学习潜在的模式。在统计中，这可能被称为估计效应，但它是同一回事。
“[在 ML 中] 我们从不希望将模型完美地拟合到训练数据中。” 有时你会（搜索双重下降）
统计学家确实关心概括。我什至会说比 ML 人更多。所有这些统计概念，例如控制 I 型错误、置信区间、可信区间等，都可以告诉您您的发现在多大程度上适用于总体。现在，如果一个机器学习者在一个测试集中测试了 2 个模型并且一个比另一个更好，这并不能告诉你这个发现将如何推广到总体，除非你计算一些标准误差、p 值或其他东西区别。这通常不是具有数十万示例的计算机视觉中的问题，其中几乎任何差异都会很重要，但在较小的问题中很重要。
如果一个模型因为过度拟合而具有很大的拟合优度，则 p/t/F 值将不是很好，并且统计学家在这种情况下不会发现显着的结果。在这种情况下，变量将是共线的，标准误差会很大，没有什么是重要的。
在统计数据中，我们通常不使用测试集，因为这些统计程序已经被开发为在不需要测试集的情况下有效。如果我使用 F 检验来比较哪个模型更好，结果将推广到总体，因为这就是测试的目的。它不会自动选择 R2 较高的模型。

总而言之，统计学家关心的是泛化，通用的统计度量和概念就是为此目的而存在的。另一方面，ML 人通常对泛化不感兴趣，因为简单的 CV 或测试集性能通常不被视为对总体性能的估计，

在某种程度上，统计学家是否通常更关心模型的拟合优度和相应的显着性指标，而不是模型的泛化能力，反之亦然？

不会。测量泛化能力是统计实践的很大一部分。交叉验证和引导技术解决了统计模型如何概括和选择奥卡姆意义上的模型的问题：模型选择的交叉验证程序调查。

一件事似乎与现代机器学习 (ML) 社区存在显着差异，不幸的是，ML 社区停止实践奥卡姆剃刀。这部分是因为深度学习违背了核心范式，例如双深度下降现象。ML 社区试图通过检测过拟合的测试训练曲线来建立泛化，即仅单一保留。实际上，在过度拟合中，我们需要两个模型进行比较，而不仅仅是对单个模型进行比较。这最好由Andrew Gelman描述，请参阅什么是过度拟合：

过度拟合是指你有一个复杂的模型，平均而言，它比简单的模型给出的预测更差。

然而，现在在深度学习方面也有一项重要的研究活动，通过神经架构搜索 (NAS)间接引入奥卡姆剃刀。它的目的不是直接过拟合而是模型压缩，但实际上是在 Gelman 的定义中防止过拟合的一种形式。

这个问题很长，完整地涵盖它需要一个很长的答案。所以在这里我将尝试用非常简短的要点来提供我的观点。

这个问题过分强调了机器学习和统计之间的区别。为了更好地思考这些问题，我建议阅读 Michael I. Jordan 在 Reddit 问答环节中给出的答案：链接
您以不寻常的方式使用“纯”统计学家。根据我的经验，大多数“纯”统计学家根本不关心具体数据，他们更感兴趣的是创建估计器并证明这些估计器的属性。应用统计学家（其中机器学习从业者是一种）然后在具体数据集上使用这些估计器来回答实际问题。
“纯”统计学家提出方法，然后测试这些方法在各种环境下的表现如何。然后，应用统计学家使用与其数据属性一致的行为良好的估计器。机器学习从业者也这样做，他们使用经过充分测试的概念，如交叉验证（本身是统计的产物）来估计模型的准确性。
p 值是不确定性的度量，而不是准确性。最好将这个概念本身理解为一种增强归纳的形式，在这种形式中，您仅通过观察一些事实来测试关于现实世界的理论。例如，可以应用 p 值来检查我们对测试集准确度测量的确定程度。
准确性不能替代 p 值。考虑一个场景，我们询问两个类之间是否存在差异，这些类的重叠率为 99%。无论您使用纯预测做什么，您都只能获得 51% 的准确率。但是如果样本量足够大，您将达到任意小的 p 值，说明这两个类别确实不同。
与统计学家不关心模型泛化的说法相反——恰恰相反。统计学家关心一切的概括，而不仅仅是准确性。这就是诸如置信区间和 p 值之类的东西试图达到的目标——暗示对样本的某些估计如何能很好地推广到更广泛的人群。
在我个人看来，统计学和机器学习社区（当然有例外）之间更大的区别之一是工作的整体背景。统计学家更加强调假设，并为手头的工作选择最佳工具/模型。您了解您的数据，检查一些假设，有一个问题，并制定回答单个问题的最佳策略，仅此而已。而机器学习人则强调最佳的整体方法。例如，我敢打赌，很多机器学习从业者都希望能够实现完美的模型，该模型可以模仿人脑，无需经过预训练就可以学习所有内容并解决多个问题等，这似乎是一大块的社区正在努力。

其它你可能感兴趣的问题

上一篇（一些）线性回归可以准确地模拟这个（人口）函数吗？下一篇为什么我在这个指定良好的模型中看到残差模式？