我试图了解在 kmeans 聚类等无监督技术中是否会发生过度拟合。有人可以帮助我了解这是否会发生以及如何发生吗?
谢谢。
我试图了解在 kmeans 聚类等无监督技术中是否会发生过度拟合。有人可以帮助我了解这是否会发生以及如何发生吗?
谢谢。
我不确定这是否有效,但两个微不足道的聚类示例怎么样:
这些将是有效的集群,但显然它们不会为您提供任何有用的信息。
过度拟合意味着您的算法正在寻找仅存在于该数据集中的属性中的模式,并且不会推广到新的、看不见的数据。除了找到真实的模式外,当过拟合时,该算法还会发现只是随机噪声的“模式”。
对于聚类,这意味着您发现的聚类仅存在于您的数据集中,而在新数据中看不到。
您的算法可能会在数据集中找到两个新数据不存在的集群,因为这两个集群实际上都是一个更大集群的子集。您的算法过度拟合,您的聚类太细了(例如k,对于 k-means,您的聚类太小),因为您正在寻找仅是噪声的分组。