原因:平均词向量嵌入有效地编码了词的内容和词序

数据挖掘 word2vec 词嵌入
2021-09-24 18:49:11

我正在阅读一篇研究论文:使用辅助预测任务对句子嵌入进行细粒度分析

关键是 Encoder 解码器和平均词句嵌入的比较,验证了句子嵌入在 3 个基本语言特征(句子长度、词内容和词序)上的准确性。

句子嵌入在 3 种基本语言特征上的准确度比较

我发现一个句子的平均词嵌入比编码器解码器更能预测句子中单词的存在,这让我感到惊讶。另外,增加嵌入大小会降低其性能是怎么回事。

同样的问题也适用于词序,平均词嵌入如何做到这一点?实验能够解释,如果预测是基于单词的排列会发生什么,但这种解释对我来说并不直观。简单的 avg 词嵌入如何能够包含诸如词序之类的信息,当它取平均值时有点抵消了顺序信息

1个回答

在阅读论文时,实际上对这些现象的背景有几点看法:

关于预测一个词的意思,只有惊喜出现,但关于预测顺序,有一整节是关于自然语言基础力学对 CBOW 性能的统计影响。看起来,对于 CBOW 来说,句子甚至单词对的顺序很容易,而没有自然顺序的随机排列也降低了性能。

如果我们非常基础,CBOW(Continuous Basket Of Words)的任务是:

根据上下文预测一个单词。[1]

因此,即使是一个平均值(或仅仅因为它),我们也可以识别哪个单词是哪个单词,尽管有点奇怪。只是因为这就是它的行为方式。其次,篮子用于训练神经网络,而不是完整的算法。获得的模型与获取数据的方式不同。

让我猜测是从更大范围的单词中识别的能力下降。正如我们都惊讶于平均值如何使伎俩如此,好吧,也许真正的本质是通过更大的维度来揭示的。

[1] https://www.quora.com/What-are-the-continuous-bag-of-words-and-skip-gram-architectures