过拟合是无监督学习中的一个问题吗?

数据挖掘 机器学习 无监督学习 主成分分析 过拟合
2021-10-13 01:58:05

当我阅读使用 PCA 减少过度拟合是一种不好的做法时,我提出了这个问题。那是因为 PCA 不考虑标签/输出类,因此总是首选正则化。

这在监督学习中似乎完全有效。

无监督学习的情况如何?我们没有任何标签。所以2个问题。

  • 过拟合是无监督学习中的一个问题吗?
  • 如果是,我们可以使用 PCA 来防止过拟合吗?这是一个好习惯吗?
2个回答

当模型更适合训练数据集而不是适合基础分布时,就会发生过度拟合。在某种程度上,它对特定样本进行建模,而不是对现象或潜在过程产生更一般的模型。

它可以使用贝叶斯方法来呈现。如果我使用朴素贝叶斯,那么我有一个简单的模型,它可能不太适合数据集或分布,但复杂度较低。

现在假设我们使用一个非常大的贝叶斯网络。它可能最终无法获得更多洞察力并使用复杂性来对数据集进行建模(甚至只是垃圾)。

因此,在无监督学习中过度拟合是可能的。

在 PCA 中,我们从数据集大小的模型开始。我们对数据的行为方式进行了假设,并使用它们通过删除不能解释主要变化因素的部分来减小模型大小。由于我们减小了模型大小,因此可以期望始终受益。

然而,我们面临着问题。首先,数据集大小的模型非常大(给定如此大的大小,您可以对任何数据集进行建模)。压缩一点是不够的。

另一个问题是我们的假设可能不正确。然后我们将有一个较小的模型,它不会与分布对齐。同样,在这种情况下,它可能会过度拟合或不适合模型。

尽管如此,PCA 旨在降低维度,从而导致模型更小,并可能减少过度拟合的机会。因此,如果分布符合 PCA 假设,它应该会有所帮助。

总而言之,过拟合在无监督学习中也是可能的。在合适的数据上,PCA 可能会有所帮助。

这是我迄今为止研究的摘要:

从根本上说:

模型:模型是一组规则,适合/表示所提供数据中的趋势/规则。

过拟合:一般意义上的过拟合是噪声/随机性的建模以及噪声影响模型结果的样本。

有了手头的基础知识,人们就会有一种直觉,当你适应时,你就有可能过度适应。即,当您可以对需要的东西进行建模时,您很有可能可以对不需要的东西进行建模。

所以,是的,在无监督学习中可能会出现过度拟合。

如果 PCA 可用于消除/减少无监督学习中的过拟合?

监督学习使用标签作为比较度量,即在数据中比较 2 个样本(特征集、特征向量或任何在这里抛出的术语。),用它们的标签来识别模式。 因此,PCA 是一种不考虑标签的技术。因此,使用 PCA 删除数据并不是监督的首选,因为它可能会删除特征可能没有足够信息但标签有足够信息的数据。

因此,不建议使用 PCA 去除监督学习的过度拟合。您可以使用它,如果有的话,您可能会丢失数据中的信息。

无监督学习没有标签,而是通过比较 2 个样本来识别模式。

基本上,没有数据的特征可能没有足够的信息,但标签却没有,因为标签不存在。因此,PCA 将帮助您降低维度,因为它倾向于延迟不会添加太多信息的数据。

如上所述,它不一定会帮助您减少过度拟合。

但是,值得一试。因为,如果噪声在数据中占主导地位,则数据中存在明确的模式,并且您的模型只是将其抽象化,从而深入建模您的数据。

所以是的,PCA 可以帮助您减少数据中的过度拟合,问题是它是一种好的做法吗?

我还没有遇到过将其推迟到无监督的文章或推理。无论如何,PCA 似乎确实是一种在不丢失信息的情况下减少无监督学习过度拟合的实用方法。