无监督技术中的过拟合

数据挖掘 聚类 过拟合
2021-09-22 11:05:51

我试图了解在 kmeans 聚类等无监督技术中是否会发生过度拟合。有人可以帮助我了解这是否会发生以及如何发生吗?

谢谢。

2个回答

我不确定这是否有效,但两个微不足道的聚类示例怎么样:

  • 每个对象都属于仅包含该对象的集群。因此,例如,如果您想对 N 辆汽车进行集群,则将有 N 个集群 - 每辆汽车一个集群。
  • 另一方面,算法可能会选择一个包含其中所有元素的集群 - 一个包含所有 N 辆汽车的集群。

这些将是有效的集群,但显然它们不会为您提供任何有用的信息。

是的,过拟合也发生在无监督学习中

过度拟合意味着您的算法正在寻找仅存在于该数据集中的属性中的模式,并且不会推广到新的、看不见的数据。除了找到真实的模式外,当过拟合时,该算法还会发现只是随机噪声的“模式”。

聚类示例

对于聚类,这意味着您发现的聚类仅存在于您的数据集中,而在新数据中看不到。

您的算法可能会在数据集中找到两个新数据不存在的集群,因为这两个集群实际上都是一个更大集群的子集。您的算法过度拟合,您的聚类太细了(例如k,对于 k-means,您的聚类太小),因为您正在寻找仅是噪声的分组。