人工智能 - 为什么我们通常使用日志log压缩频率？ - 吾爱随笔录

为什么我们通常使用日志log压缩频率？

人工智能自然语言处理定义图书 tf-idf 对数

2021-11-04 17:25:05

词频和逆文档频率是信息检索中众所周知的术语。

长期频率

词频是词的频率 $t$ 在词频文档中 $d$ . 我们可以只使用原始计数作为词频：

$t f_{t, d} = count (t, d)$ $tf_{t, d} = \text{count}(t, d)$

更常见的是，我们通过使用 $\log_{10}$ 相反的频率。直觉是，在文档中出现 100 次的单词并不会使该单词与文档含义相关的可能性增加 100 倍。

关于逆文档频率

这 $\text{idf}$ 使用分数定义 $\dfrac{N}{df_t}$ ，在哪里 $N$ 是集合中的文档总数，并且 $\text{df}_t$ 是哪个术语中的文档数 $t$ 发生.......

由于许多集合中有大量文档， 因此通常也使用 log 函数来压缩此度量。逆文档频率的结果定义（ $\text{idf}$ ) 因此

${idf}_{t} = \log_{10} (\frac{N}{d f_{t}})$ $\text{idf}_t = \log_{10} \left(\dfrac{N}{df_t} \right)$

如果我们观察引号的粗体部分，很明显 $\log$ 函数是常用的。它不仅用于这两个定义。它在文献中出现了许多定义。例如：熵、互信息、对数似然。所以，我不认为挤压是使用 $\log$ 功能。

是否有任何理由选择对数函数进行挤压？有什么优势吗 $\log$ 与任何其他壁球功能相比，如果有的话？

2个回答

处理对数要容易得多，因为相关数字通常非常小或非常大。如果你有一个很长的指数表达式，很难看出差异，但如果你查看 4.3 和 5.6，你可以立即看到发生了什么。对数是实现这种压缩的一种众所周知的（并且很好理解的）方法。您可以轻松地解释差异，具体取决于所使用的对数的底数。

很多时候 $log_2$ 在处理熵或信息时使用，因为它们通常以位表示。

我想为奥利弗的回答添加细节。

来自 Bishop 的《模式识别和机器学习》一书（第 1.2.5 节）：

在实践中，最大化似然函数的对数更方便。因为对数是其自变量的单调递增函数，所以函数对数的最大化等价于函数本身的最大化。取对数不仅简化了后续的数学分析，而且在数值上也有帮助，因为大量小概率的乘积很容易溢出计算机的数值精度，而这通过计算对数概率的总和来解决。

那是， $\log$ 是单调递增的，因此保留了极值的顺序和位置。例如，如果 $p(x) \geq p(y)$ 然后 $\log\big(p(x)\big) \geq \log\big(p(y)\big)$ 也成立。因此，最大化似然等同于最大化对数似然。

此外，它在计算联合概率时非常有用，因为可以用总和代替乘积：

\log (\prod_{i} P (x_{i})) = \sum_{i} \log (P (x_{i}))

$\log \left(\prod_i P(x_i)\right) = \sum_i \log \left( P(x_i)\right)$

这也使计算在数值上稳定，并且对数和的导数比乘积的导数容易得多。

其它你可能感兴趣的问题

上一篇什么是数值稳定性？下一篇Alpha Zero 的移动编码是如何工作的？