我使用 tf-idf 的自定义停用词列表

数据挖掘 nlp tfidf
2022-02-22 07:20:48

我想制作自己的停用词列表,我为我的术语计算了 tf-idf 分数。

我可以认为那些用红色突出显示的词是停用词吗?对于依赖 tf-idf 的停用词,我的阈值应该是多少?我是否应该将 tf-idf 的高值视为我需要保留的最重要的词?

在此处输入图像描述

@Erwan 回答了这个问题,检查他们对他们链接的问题的回答,这非常有用

1个回答
  • 停用词没有标准定义,但一般来说,停用词是对文本含义没有贡献的非常常见的词,如限定词、代词等。重要的是,停用词是一种适用于独特词的属性词汇。例如,如果这个词w被认为是一个停用词,那么这适用于所有出现的w在文本中,不仅对其中一些。
  • 相反,TFIDF 适用于句子/文档中的单词,所以同一个单词w在不同的句子/文档中可能有不同的 TFIDF 值:
    • IDF 是词汇级别的属性,即所有出现的w具有相同的 IDF。
    • TF 特定于句子/文档。如果w在文档 A 中出现的频率是文档 B 中的 3 倍,那么它在 A 中的 TFIDF 值是在 B 中的 3 倍。

这就是为什么考虑 TFIDF 值来选择停用词并没有真正意义的原因:前者特定于一个句子/文档,而不是第二个。您可以只使用 IDF 部分,但仅使用文档频率没有区别,实际上它会得到与使用整体频率相同的结果。