在文本分类问题的上下文中从文本中删除停用词的优点/缺点是什么,我想知道最好的方法是什么(即删除或不删除)?
我在某处读到过(但找不到参考),在删除停用词的情感分析情况下,这可能会损害模型的性能。
在文本分类问题的上下文中从文本中删除停用词的优点/缺点是什么,我想知道最好的方法是什么(即删除或不删除)?
我在某处读到过(但找不到参考),在删除停用词的情感分析情况下,这可能会损害模型的性能。
在情感分析的上下文中,如果上下文受到影响,删除停用词可能会出现问题。例如,假设您的停用词语料库中包含“not”,这是一个可以改变段落价的否定词。因此,您必须对正在丢弃的确切内容及其可能产生的后果保持谨慎。
如果您正在使用一些基于词袋的方法,即 countVectorizer 或 tfidf,它们适用于词的计数和频率,那么删除停用词非常好,因为它降低了维度空间,而且一些停用词也不会驱动您的分析。另一方面,当你利用给定文本的语义时,比如在 seq2seq 模型中,删除停用词会忽略上下文,最终会得到模棱两可的结果。