数据挖掘 - 为什么好的词嵌入来自最大化余弦相似度？ - 吾爱随笔录

为什么好的词嵌入来自最大化余弦相似度？

数据挖掘神经网络 nlp word2vec 词嵌入

2021-09-22 14:55:48

我对word2vec的技术细节有所了解。

我不明白为什么语义相似的词应该具有高余弦相似度。

据我所知，在词类比等浅层任务中可以看到特定嵌入的优点。我无法掌握最大化余弦相似度和良好的词嵌入之间的关系

1个回答

训练词嵌入不依赖于优化词的余弦相似度。它通常依赖于预测问题。以skipgram模型为例：你正在预测一个词的上下文，给定这个词。这样的模型，在几何空间中投影单词（例如常用的~300 维）。换句话说，一个词与 300 维的密集向量相关联。由于这些向量的学习方式，它们捕获了单词的语义，因此相似的单词接近诱导空间。

余弦相似度（或点积）准确地捕捉到了这种语义接近度。直观地说，我们希望相似的词接近，因为它们是相似的，我们希望空间模拟一些词的属性和含义。

其它你可能感兴趣的问题

上一篇自动超参数调优下一篇在推理时创建虚拟变量以匹配拟合模型