潜在语义分析 (LSA)、潜在语义索引 (LSI) 和奇异值分解 (SVD) 之间有什么区别?

机器算法验证 主成分分析 文本挖掘 svd
2022-02-03 20:41:50

这些术语经常混在一起,但我想知道您认为它们之间的区别是什么,如果有的话。

谢谢

3个回答

LSA 和 LSI 大多是同义词,信息检索界通常将其称为 LSI。LSA/LSI 使用 SVD 将术语-文档矩阵 A 分解为术语-概念矩阵 U、奇异值矩阵 S 和概念-文档矩阵 V,形式为:A = USV'。wikipedia 页面有对潜在语义索引的详细描述。

值得注意的是,虽然 LSA 和 LSI 使用 SVD 来发挥它们的魔力,但有一种计算上和概念上更简单的方法称为 HAL(超空间模拟语言),它筛选文本以跟踪前后上下文。从这些(通常是加权的)共现矩阵中提取向量,并选择特定的词来索引语义空间。在许多方面,我都知道它的性能与 LSA 一样好,而不需要 SVD 的数学/概念上复杂的步骤。详见 Lund & Burgess, 1996。

NMF 和 SVD 都是矩阵分解算法。维基百科有一些关于 NMF 的相关信息

SVD 和 PCA 密切相关。首先,PCA 只是相关性的特征分解。SVD 是特征分解对非方阵的推广。奇异值是矩阵的特征值的平方根乘以其转置(使其成为正方形,并且可以进行特征分解)。此外,如果矩阵是正常的(),奇异值只是特征值的绝对值。在任何情况下,奇异值都是非负的,失去特征值的符号是您为能够使用非方阵所付出的代价。AA=AA

其他响应者已涵盖 LSI/LSA ......