基于分布语义的主要算法有哪些?

数据挖掘 深度学习 word2vec 词嵌入 向量空间模型
2022-02-15 04:44:39

我知道 LSI、RRI 和词嵌入是分布式语义模型。但是,我不确定下面提到的是否也是分布式语义模型。

  • 非负张量分解
  • 奇异值分解 (SVD)
  • 向量空间模型 (VSM)

请让我知道上述算法是否也是分布式语义模型。此外,还请让我知道其他基于分布式语义的算法。

1个回答

这里的主要思想是:“物以类聚”,也就是说,出现在彼此附近的词告诉了一个词的“功能”。

更重要的是,我认为你提到的技术是“方法”,而不是“模型”。在没有适当的数据预处理的情况下,似乎可能违反分布式语义模型的定义的原因。

例如,SVD 通常是一种降维技术,或者是聚类技术的前身,具体取决于特征工程和方法的使用。在这种情况下,如果您要计算文档中单词的共现——rows = 文档,cols = 单词,cells = 该单词在该特定文档中出现的次数——然后你对其运行 SVD,你可能有一个“模型”的前身,它最终可能是你可以称之为分布式语义的东西。

另一个例子是 Word2Vec,通常使用神经网络来训练浅层并提取权重。Word2Vec 可以通过 Skip-gram 或连续词袋进行训练。由于单词的“含义”是从与相邻单词的共现和/或接近度中得出的,因此可以将其视为分布式语义模型。FastText 可能更是如此,因为它明确地使用文档中单词的分布来执行类似的向量操作。

潜在狄利克雷分配可能是另一个例子。如果以适当的方式使用,甚至可能是朴素贝叶斯。

所以最终,答案是,它取决于数据预处理/特征工程和使用,而不是技术。