在下面的文章中,其中一种说法如下:
K-means 算法仅对球形数据集有效
球形数据集是什么意思?
在这种情况下,一张图片值一千字。它们的字面意思是 X,Y 上的分布大致是一个球体的数据。不同的聚类算法在不同的分布上效果更好。例如,K 均值在前两行的排列上表现不佳,但在最后一行上表现良好。
球形数据集基本上是非线性数据集的一种形式,其中观测数据由一个函数建模,该函数是模型参数的非线性组合,并且取决于一个或多个自变量。
如果您的数据集具有高方差,则需要减少特征数量并添加更多数据集。之后,您可以使用非线性方法进行分类。
此外,非线性方法通常涉及对输入数据集应用某种类型的转换。转换后,许多技术可以尝试使用线性方法进行分类。