我正在处理一个数据,其中我只有两个文档,并且两个文档中都有一些单词。现在,这些词的词频(tf)对于各个单个文档来说比另一个文档要高。例如
Word1 is present in Documents D1 and D2, and
tf(Word1,D1) = 1000
tf(Word1,D2) = 3
But since Word1 is present in both the documents
IDF(Word1) = 0
TF-IDF(Word1,d) = 0 for all d belonging to {D1,D2}
因此,尽管在单个文档中存在非常强大的存在,但 TF-IDF 分数将始终为 0。我能想到的一种解决方案是将 word1 视为不存在 if tf(Word1) < threshold。但是我仍然觉得这还不够好,因为仅在一个文档中出现的 Word 的 IDF 分数仅为0.5. 当文档数量非常少时,我觉得 TF-IDF 不是一个很好的衡量标准。这里有什么建议吗?