这至少在我脑海中已经存在了几个小时。我试图为 k-means 算法(使用余弦相似度度量)的输出找到最佳 k,所以我最终将失真绘制为集群数量的函数。我的数据集是 600 维空间中 800 个文档的集合。
据我了解,在这条曲线上找到拐点或肘点应该至少可以大致告诉我我需要将数据放入的集群数量。我把图表放在下面。通过使用最大二阶导数测试获得绘制红色垂直线的点。在完成所有这些之后,我陷入了一个更简单的问题:这张图告诉我关于数据集的什么信息?
它是否告诉我不值得聚类并且我的文档缺乏结构或者我需要设置一个非常高的 k?一件奇怪的事情是,即使 k 很低,我也看到类似的文档聚集在一起,所以我不确定为什么会得到这条曲线。有什么想法吗?