idf 的公式和对数基数是什么?

数据挖掘 tfidf 搜索引擎
2022-03-07 11:08:38

为了计算 tf-idf,我们这样做:

tf*idf

tf=单词在文档中出现的次数

什么是 idf 和 log base 的公式:

  1. 日志(文档数/包含单词的文档数)

  2. Log((1+文档数)/(1+包含单词的文档数))

  3. 1+Log(文档数/包含单词的文档数)

  4. 1+Log((1+文档数)/(1+包含单词的文档数))

1个回答

如何计算逆文档频率有很多变化。查看 wiki 页面 ( Tf-Idf ) 或 scikit-learn 的TfidfVetorizer课程。