与简单的 one-hot 编码层相比,词嵌入层(比如 word2vec)如何为神经网络带来更多见解?
我理解词嵌入如何带有一些语义含义,但似乎这些信息会被激活函数“压扁”,只留下一个标量值,并且由于许多不同的向量可以产生相同的结果,我猜信息是或多或少失去了。
谁能给我带来关于为什么神经网络可以利用单词嵌入中包含的信息的见解?
与简单的 one-hot 编码层相比,词嵌入层(比如 word2vec)如何为神经网络带来更多见解?
我理解词嵌入如何带有一些语义含义,但似乎这些信息会被激活函数“压扁”,只留下一个标量值,并且由于许多不同的向量可以产生相同的结果,我猜信息是或多或少失去了。
谁能给我带来关于为什么神经网络可以利用单词嵌入中包含的信息的见解?
莎士比亚曾经说过“任何其他名字的玫瑰都会闻起来一样甜”(罗密欧与朱丽叶)。文字只是我们为了方便而附加在想法上的标签。通过使用一个热,我们仍然与字母序列 r,o,s,e 联系在一起,并且某些其他结构必须承担将甜味上下文附加到它的责任。
词嵌入学习多维上下文。嵌入的每个维度的确切上下文是什么是一个谜,只是从学习中浮现出来。维度的数量越大,维度的某些组合代表甜度上下文的可能性就越大,但可能很难梳理出来。
因此,您可以将甜蜜的概念附加到 one-hot 结构的一个成员上,但它必须是基于规则的方法的一部分。嵌入,当它们运行良好时,将不需要规则。
添加到科林的答案;使用词嵌入往往比 one-hot 向量更健壮。考虑以下两句话:
桌子上有一本书。
和
桌子上有一本书。
这两个句子的意思几乎相同。如果我们使用词嵌入,向量“desk”和“table”将非常接近。这两个句子相似的事实在嵌入中变得隐含。
但是如果我们使用 one-hot 向量,两个向量之间的距离将与“desk”和“cat”或“table”和“book”之间的距离相同。所以现在网络必须知道这些句子可能在原始任务之上包含相同的东西。