数据挖掘 - TF-IDF 在这种情况下不是一个强有力的措施吗？ - 吾爱随笔录

我正在处理一个数据，其中我只有两个文档，并且两个文档中都有一些单词。现在，这些词的词频（tf）对于各个单个文档来说比另一个文档要高。例如

Word1 is present in Documents D1 and D2, and
tf(Word1,D1) = 1000
tf(Word1,D2) = 3
But since Word1 is present in both the documents 
IDF(Word1) = 0
TF-IDF(Word1,d) = 0 for all d belonging to {D1,D2}

因此，尽管在单个文档中存在非常强大的存在，但 TF-IDF 分数将始终为 0。我能想到的一种解决方案是将 word1 视为不存在 if tf(Word1) < threshold。但是我仍然觉得这还不够好，因为仅在一个文档中出现的 Word 的 IDF 分数仅为0.5. 当文档数量非常少时，我觉得 TF-IDF 不是一个很好的衡量标准。这里有什么建议吗？