最近我玩过 Twitter 的预训练 GLOVE 词嵌入模型
http://nlp.stanford.edu/projects/glove/
我注意到模型中存在常见的停用词。也就是说,在模型训练之前没有停用词过滤。
我想知道停用词过滤是否会在以下方面提高性能:
- 语义相似词之间更高的相关性(或 cos-sim)
- 词集合聚合的噪声总和较少,因为我听说词嵌入聚合的主要问题是对集合中很大一部分噪声词的权重不足。
还是过滤停用词会产生我没有看到的问题?
最近我玩过 Twitter 的预训练 GLOVE 词嵌入模型
http://nlp.stanford.edu/projects/glove/
我注意到模型中存在常见的停用词。也就是说,在模型训练之前没有停用词过滤。
我想知道停用词过滤是否会在以下方面提高性能:
还是过滤停用词会产生我没有看到的问题?
一种常见的方法是简单地对语料库中最常见的单词进行二次抽样。这样,它们对模型的影响较小,但您不必完全摆脱它们。它还可以加快训练速度,因为与它们在语料库中出现的次数相比,处理不携带所有信息的停用词所花费的时间更少。