词嵌入训练前停用词过滤的效果

机器算法验证 自然语言 信息检索 词嵌入
2022-03-28 15:43:02

最近我玩过 Twitter 的预训练 GLOVE 词嵌入模型

http://nlp.stanford.edu/projects/glove/

我注意到模型中存在常见的停用词。也就是说,在模型训练之前没有停用词过滤。

我想知道停用词过滤是否会在以下方面提高性能:

  1. 语义相似词之间更高的相关性(或 cos-sim)
  2. 词集合聚合的噪声总和较少,因为我听说词嵌入聚合的主要问题是对集合中很大一部分噪声词的权重不足。

还是过滤停用词会产生我没有看到的问题?

1个回答

一种常见的方法是简单地对语料库中最常见的单词进行二次抽样。这样,它们对模型的影响较小,但您不必完全摆脱它们。它还可以加快训练速度,因为与它们在语料库中出现的次数相比,处理不携带所有信息的停用词所花费的时间更少。

https://papers.nips.cc/paper/5021-distributed-representations-of-words-and-phrases-and-their-compositionality.pdf