机器算法验证 - 词嵌入训练前停用词过滤的效果 - 吾爱随笔录

机器算法验证自然语言信息检索词嵌入

2022-03-28 15:43:02

最近我玩过 Twitter 的预训练 GLOVE 词嵌入模型

我注意到模型中存在常见的停用词。也就是说，在模型训练之前没有停用词过滤。

我想知道停用词过滤是否会在以下方面提高性能：

还是过滤停用词会产生我没有看到的问题？

1个回答

一种常见的方法是简单地对语料库中最常见的单词进行二次抽样。这样，它们对模型的影响较小，但您不必完全摆脱它们。它还可以加快训练速度，因为与它们在语料库中出现的次数相比，处理不携带所有信息的停用词所花费的时间更少。

其它你可能感兴趣的问题