我正在研究文档聚类中使用的各种技术,我想澄清一些关于 PCA(主成分分析)和 LSA(潜在语义分析)的疑问。
首先 - 它们之间有什么区别?我知道在 PCA 中,SVD 分解应用于术语协方差矩阵,而在 LSA 中它是术语文档矩阵。还有别的事吗?
第二 - 他们在文档聚类过程中的作用是什么?从我目前所读到的内容,我推断它们的目的是减少维度、减少噪声并将术语之间的关系合并到表示中。在执行 PCA 或 LSA 之后,将传统算法(如 k-means 或凝聚方法)应用于缩减的术语空间,并使用典型的相似性度量,如余弦距离。如果我错了,请纠正我。
第三 - 在应用 PCA/LSA 之前是否对 TF/IDF 术语向量进行归一化是否重要?在那之后它们应该再次标准化吗?
第四 - 假设我对 LSA/PCA 减少的术语空间进行了一些聚类。现在,我应该如何为结果集群分配标签?由于尺寸与实际文字不对应,这是一个相当困难的问题。我想到的唯一想法是使用原始术语向量为每个集群计算质心并选择具有最高权重的术语,但这听起来效率不高。这个问题有一些具体的解决方案吗?我什么也没找到。
我将非常感谢澄清这些问题。