我对word2vec的技术细节有所了解。
我不明白为什么语义相似的词应该具有高余弦相似度。
据我所知,在词类比等浅层任务中可以看到特定嵌入的优点。我无法掌握最大化余弦相似度和良好的词嵌入之间的关系
我对word2vec的技术细节有所了解。
我不明白为什么语义相似的词应该具有高余弦相似度。
据我所知,在词类比等浅层任务中可以看到特定嵌入的优点。我无法掌握最大化余弦相似度和良好的词嵌入之间的关系
训练词嵌入不依赖于优化词的余弦相似度。它通常依赖于预测问题。以skipgram模型为例:你正在预测一个词的上下文,给定这个词。这样的模型,在几何空间中投影单词(例如常用的~300 维)。换句话说,一个词与 300 维的密集向量相关联。由于这些向量的学习方式,它们捕获了单词的语义,因此相似的单词接近诱导空间。
余弦相似度(或点积)准确地捕捉到了这种语义接近度。直观地说,我们希望相似的词接近,因为它们是相似的,我们希望空间模拟一些词的属性和含义。