为什么更大的嵌入向量不一定更好?

数据挖掘 机器学习 深度学习 word2vec 词嵌入 nlp
2022-03-10 18:38:22

我想知道为什么在 NLP 中增加单词维度向量的维度并不一定会带来更好的结果。例如,在我运行的示例中,我有时会看到使用预训练的 100d GloVe 向量的性能优于 300d 向量。为什么会这样?直观地说,更大的维度应该变得几乎像单热编码并且更“准确”,不是吗?

1个回答

您可以考虑接近维度灾难的现象。

在高维空间中嵌入单词需要更多数据来增强表示的密度和重要性。一个好的嵌入空间(当针对无监督语义学习时)的特点是不相关词的正交投影和相关词的近方向。对于像 word2vec 这样的神经模型,优化问题(最大化单词条件概率的对数似然)可能难以在高维空间中计算和收敛。

您通常必须在数据量/种类和表示空间大小之间找到适当的平衡。