为什么 DL 模型的性能会随着数据量的增加而提高,而 ML 模型的性能会趋于平缓甚至下降?

数据挖掘 理论
2022-03-08 11:39:21

我读过一些文章并意识到其中许多都引用了,例如,对于大量数据,DL 比 ML 更好。

通常:

机器学习算法的性能随着数据数量的增加而降低

来源

另一个人说 ML 模型的性能将趋于平稳,

来源

据我了解,数据越多越好。它可以帮助我们实现复杂的模型而不会过度拟合,并且算法可以更好地学习数据,从而推断出合适的模式以获得准确的输出。这应该适用于 DL 和 ML。

所以,我对引用来源的陈述感到很困惑,希望大家可以帮助我详细说明这个问题,

2个回答

一个来源没有提供他们声称的来源(随着您获得更多数据,性能会降低),所以我会忽略它。根据经验,训练数据越多就越难过拟合,我认为这适用于所有 ML 算法。即收益递减,但它不应该变得更糟。

第二个来源,即图像,是我们经常观察到的,至少在图像和文本处理领域是这样。我认为一种解释是深度学习算法能够更好地利用现代 GPU,因此可以将其容量扩展到能够从大量数据集中学习的程度。

  1. 至少在一般情况下,“机器学习算法的性能随着数据数量的增加而降低”的说法绝对是错误的。

  2. 与任何 ML 模型一样,在达到模型容量后,DL 模型的性能也会趋于稳定。如果您考虑一下,任何 DL 模型的特征都是有限的参数集(无论有多少),因此它的表达能力和性能必须受到限制。现代 DL 模型通常比经典ML 模型具有更多的参数,这是其卓越性能的根本原因,但并非没有限制。仅供参考,Andrew Ng在 Coursera 上的 DL 课程中绘制了完整的图表

此外,请记住 DL 是 ML 的一个子集(不是替代品),因此请确保您知道“比较”它们的含义。

建议:停止从这些来源获取任何东西;它们对您的健康有害。