Kmeans 质量与数据
数据挖掘
聚类
2022-02-26 10:43:20
1个回答
均值的估计质量随着 sqrt(n) 而提高。
所以随着越来越多的数据,你的平均值会变得更精确。但是改进变得越来越慢。
它对 k-means 的所有其他问题没有帮助,例如不同簇直径和异常值的问题。更多的数据可能意味着更多的异常值......
您可以使用 k-means 尝试与该论文类似的方法,并稍作修改。尝试绘制保持集和最近的质心之间的平方偏差总和。只要这种情况有所改善,这些集群就会更适合您的保留集。
其它你可能感兴趣的问题