我使用 tf-idf 的自定义停用词列表
数据挖掘
nlp
tfidf
2022-02-22 07:20:48
1个回答
- 停用词没有标准定义,但一般来说,停用词是对文本含义没有贡献的非常常见的词,如限定词、代词等。重要的是,停用词是一种适用于独特词的属性词汇。例如,如果这个词被认为是一个停用词,那么这适用于所有出现的在文本中,不仅对其中一些。
- 相反,TFIDF 适用于句子/文档中的单词,所以同一个单词在不同的句子/文档中可能有不同的 TFIDF 值:
- IDF 是词汇级别的属性,即所有出现的具有相同的 IDF。
- TF 特定于句子/文档。如果在文档 A 中出现的频率是文档 B 中的 3 倍,那么它在 A 中的 TFIDF 值是在 B 中的 3 倍。
这就是为什么考虑 TFIDF 值来选择停用词并没有真正意义的原因:前者特定于一个句子/文档,而不是第二个。您可以只使用 IDF 部分,但仅使用文档频率没有区别,实际上它会得到与使用整体频率相同的结果。
其它你可能感兴趣的问题