词频和逆文档频率是信息检索中众所周知的术语。
长期频率
词频是词的频率在词频文档中. 我们可以只使用原始计数作为词频:
更常见的是,我们通过使用 相反的频率。直觉是,在文档中出现 100 次的单词并不会使该单词与文档含义相关的可能性增加 100 倍。
关于逆文档频率
这使用分数定义, 在哪里是集合中的文档总数,并且是哪个术语中的文档数发生.......
由于许多集合中有大量文档, 因此通常也使用 log 函数来压缩此度量。逆文档频率的结果定义() 因此
如果我们观察引号的粗体部分,很明显函数是常用的。它不仅用于这两个定义。它在文献中出现了许多定义。例如:熵、互信息、对数似然。所以,我不认为挤压是使用功能。
是否有任何理由选择对数函数进行挤压?有什么优势吗与任何其他壁球功能相比,如果有的话?