word2vec 生成的嵌入对于在同一个句子中从不共享任何单词的单词是否可以相似?

数据挖掘 机器学习 神经网络 nlp 词嵌入
2022-03-02 02:04:22

word2vec 是否有可能为两个单词生成相似的嵌入向量,这两个单词在这些单词所在的句子中从不共享任何常见单词?

具体来说,假设我有单词 A 和 B。接下来假设我有单词 (A) 和单词 (B),它们分别代表与 A 和 B 出现在相同句子中的所有单词的集合。如果 words(A) 和 words(B) 的交集是空集(意味着这两个词永远不会有共同的词),那么 word2vec 是否有可能将 A 和 B 的嵌入向量放在向量空间的相似区域中?

1个回答

当您将一袋单词作为输入发送到 CBOW 时,它基于 n-gram 工作,在您的情况下,单词 A 和 B 彼此不共享任何共现,这意味着它们不会以任何形式出现共享的 n-gram,它们的向量根本不应该彼此靠近。