我在读:
https://en.wikipedia.org/wiki/Tf%E2%80%93idf#Definition
但我似乎无法确切理解为什么这个公式是这样构造的。
我的理解:
iDF 应该在某种程度上衡量一个术语 S 在每个文档中出现的频率,随着术语出现的频率越来越高,值会降低。
从那个角度
我D F(小号) =# 文件# 包含 S 的文档
此外,术语频率可以正确地描述为
tf _(小号, D ) =文档D 中 S 的出现次数 #文档 D 中任何字符串 Q 的最大出现次数
那么度量
我D F(小号) × t f(小号, D )
在某种程度上与一个术语在给定文档中出现的频率成正比,以及该术语在一组文档中的唯一性。
我不明白的
但是给出的公式将其描述为
(日志(我D F(小号) ) ) (12+日志(12tf _(小号, D ) ) )
我希望了解对定义中描述的对数的需求。比如,他们为什么在那里?他们强调什么方面?