Kmeans 质量与数据

数据挖掘 聚类
2022-02-26 10:43:20

有什么方法可以检查更多数据是否有助于提高 kmeans 聚类的质量?

我能找到的最接近的研究是EM 算法

评估 kmeans 有什么类似的吗?

1个回答

均值的估计质量随着 sqrt(n) 而提高。

所以随着越来越多的数据,你的平均值会变得更精确。但是改进变得越来越慢。

它对 k-means 的所有其他问题没有帮助,例如不同簇直径和异常值的问题。更多的数据可能意味着更多的异常值......

您可以使用 k-means 尝试与该论文类似的方法,并稍作修改。尝试绘制保持集和最近的质心之间的平方偏差总和。只要这种情况有所改善,这些集群就会更适合您的保留集。