机器算法验证 - 了解TF-IDF对数中对数的使用 - 吾爱随笔录

我在读：

但我似乎无法确切理解为什么这个公式是这样构造的。

我的理解：

iDF 应该在某种程度上衡量一个术语 S 在每个文档中出现的频率，随着术语出现的频率越来越高，值会降低。

从那个角度

i D F (S) = \frac{# of Documents}{# of Documents containing S}

$iDF(S) = \frac{\# \text{ of Documents}}{\# \text{ of Documents containing S}}$

此外，术语频率可以正确地描述为

t f (S, D) = \frac{# of Occurrences of S in document D}{# maximum number of occurrences for any string Q in document D}

$tf(S,D) = \frac{\# \ \text{of Occurrences of S in document D}}{\# \ \text{maximum number of occurrences for any string Q in document D}}$

那么度量

i D F (S) \times t f (S, D)

$iDF(S) \times tf(S,D)$

在某种程度上与一个术语在给定文档中出现的频率成正比，以及该术语在一组文档中的唯一性。

但是给出的公式将其描述为

(\log (i D F (S))) (\frac{1}{2} + \log (\frac{1}{2} t f (S, D)))

$\left( \log(iDF(S)) \right) \left( \frac{1}{2} + \log(\frac{1}{2} tf(S,D)) \right)$

我希望了解对定义中描述的对数的需求。比如，他们为什么在那里？他们强调什么方面？