TF-IDF 在这种情况下不是一个强有力的措施吗?

数据挖掘 文本挖掘 tfidf
2022-02-18 21:06:51

我正在处理一个数据,其中我只有两个文档,并且两个文档中都有一些单词。现在,这些词的词频(tf)对于各个单个文档来说比另一个文档要高。例如

Word1 is present in Documents D1 and D2, and
tf(Word1,D1) = 1000
tf(Word1,D2) = 3
But since Word1 is present in both the documents 
IDF(Word1) = 0
TF-IDF(Word1,d) = 0 for all d belonging to {D1,D2}

因此,尽管在单个文档中存在非常强大的存在,但 TF-IDF 分数将始终为 0。我能想到的一种解决方案是将 word1 视为不存在 if tf(Word1) < threshold但是我仍然觉得这还不够好,因为仅在一个文档中出现的 Word 的 IDF 分数仅为0.5. 当文档数量非常少时,我觉得 TF-IDF 不是一个很好的衡量标准。这里有什么建议吗?

1个回答

表中的加权方案 2 tf–idf推荐的 TF-IDF 加权方案| 维基百科应该可以解决您的问题。