我正在使用 TF-IDF 进行文本分类,并且一直对以下两个概念感到好奇。
增强词频,主要用于加权,以消除对较长文档的偏见。
另一方面,似乎出于相同目的进行了余弦归一化。
他们俩相似吗?我们可以使用其中任何一种来消除对较大文档的偏见吗?