我正在尝试执行文档级聚类。我构建了术语文档频率矩阵,并尝试使用 k-means 对这些高维向量进行聚类。我所做的不是直接聚类,而是首先应用 LSA(潜在语义分析)奇异向量分解来获得 U、S、Vt 矩阵,使用碎石图选择合适的阈值并在缩减矩阵上应用聚类(特别是 Vt,因为它给了我一个概念文档信息)这似乎给了我很好的结果。
我听说有人说 SVD(奇异向量分解)是聚类(通过使用余弦相似度等),并且不确定我是否可以在 SVD 的输出上应用 k-means。我认为这在逻辑上是正确的,因为 SVD 是一种降维技术,给了我一堆新的向量。另一方面,k-means 会将簇的数量作为输入,并将这些向量划分为指定数量的簇。这个程序是否有缺陷,或者有什么可以改进的方法?有什么建议么?