机器算法验证 - 在统计中，我应该假设日志log意思是日志10log10或自然对数lnln? - 吾爱随笔录

在统计中，我应该假设日志log意思是日志10log10或自然对数lnln?

机器算法验证数理统计符号对数

2022-02-15 04:54:06

我正在研究统计学，经常遇到包含的公式，log如果我应该将其解释为的标准含义log，即以 10 为底，或者在统计学中该符号log 通常被假定为自然对数，我总是感到困惑ln。

特别是我正在研究Good-Turing频率估计作为一个例子，但我的问题更多的是一般性的。

4个回答

假设没有明确的基础是安全的 $\log=\ln$ 在统计中，因为在统计中不经常使用以 10 为底的日志。然而，其他海报提出了一个观点，即 $\log_{10}$ 或其他基础在应用统计学的其他一些领域可能很常见，例如信息论。因此，当您阅读其他领域的论文时，有时会感到困惑。

维基百科的熵页面是混淆使用的一个很好的例子 $\log$ . 在同一页中，它们的意思是基数 2， $e$ 和任何基地。您可以通过上下文找出是哪一个，但这需要阅读文本。这不是展示材料的好方法。将其与对数页面进行比较，在该页面中，每个公式中都清楚地显示了底数或 $\ln$ 用来。我个人认为这是要走的路：总是在 $\log$ 使用符号。这也符合ISO 标准，因为该标准没有定义未指定基础的使用 $\log$ @Henry 指出的符号。

最后，ISO 31-11 标准规定 $\text{lb}$ 和 $\lg$ 以 2 和 10 为底的对数的符号。如今，两者都很少使用。我记得我们用过 $\lg$ 在高中，但那是在另一个世界的另一个世纪。自从在统计环境中使用以来，我从未见过它。甚至没有标签 $\text{lb}$ 在乳胶中。

这取决于。

以 10 为底的对数在方程式中非常少见。但是，对数比例图通常以 10 为底，尽管这应该很容易从轴上的标签中验证。在数学环境中，一个朴素的 $\log$ 很可能是自然对数（即， $\log_{e}$ 或者 $\ln$ ）。另一方面，计算机科学经常使用以 2 为底的对数 ( $\log_2$ )，并且它们并不总是如此清楚地标记。

好消息是，您可以轻松地在碱基之间进行转换，而使用“错误”的碱基只会使您的答案偏离一个常数因子。

在 Gale 1995 年的“Good-Turing without Tears”论文中，文本中的对数实际上是 $\log_{10}$ （第 5 页上是这样说的），但附录中的 R/S+ 代码使用了该log函数，它实际上是 $\log_e$ 或者 $\ln$ . 正如@Henry 在下面指出的那样，这没有实际区别。

如果我被迫猜测，这里有一些启发式方法：

如果是 2 的幂， $e$ , 或 10 也存在，日志很可能有相应的基数。
如果它源于整合 $1/x$ （或者，更一般地说，涉及微积分），它很可能是一个自然对数。
如果它是由于重复将某物一分为二而产生的（如二分搜索），它很可能是 $\log_2$ . 更一般地，一些东西可以被划分为 $n$ 大约 $\log_n$ 次。
信息论计算通常使用 $\log_2$ ，尤其是在现代工作中。但是，您可以检查单位以确保： $\textrm{bits} \rightarrow \log_2$ , $\textrm{nats} \rightarrow \ln$ ，和 $\textrm{bans} \rightarrow \log_{10}$ .
其他与单位相关的线索包括分贝 (dB)，它表示 $\log_{10}$ 和八度音阶，这表明 $\log_2$ .
找到函数下降或上升到的点 $\frac{1}{e} \textrm{ or } 1- \frac{1}{e}$ , （分别为 37% 和 63%）的初始值表示自然对数。

回答你的问题：不，你不能假设对数有一个一般的固定符号。

SE.Math最近讨论了一个类似的问题：这三种类型的对数有什么区别？从数学的角度来看。一般来说，有不同的符号取决于习惯（ $\log_{10}$ 似乎用于医学研究）或语言（例如德语、俄语、法语）。不幸的是，相同的符号有时会代表不同的定义。引用上面的 SE.Math 链接：

符号 $\ln x$ （几乎）明确表示自然对数 $\log_e x$ （拉丁语：logarithmus naturalis），或以底为底的对数 $e$ . 符号 $\log x$ 应该是自然对数的采用符号，在数学中也是如此。但是，它通常代表“最自然”的领域，具体取决于领域：我将其作为基础学习—— $*10$ 对数 ( $\log_{10}$ ) 在学校，它在工程中经常使用这种方式（例如在分贝的定义中）

通常，如果您不关心物理单位的含义（例如分贝@Matt Krause），也不对特定的变化率感兴趣（在生物统计学中， $\log$ -倍数变化的比率通常表示基数- $2$ 对数 $\log_2$ )，很可能是自然对数 ( $\log_e$ ）用来。

例如，在幂或 Box-Cox 变换（用于方差稳定）中，当指数趋于 $0$ .

回到你最初的动机，Good-Turing 频率估计，有趣的是阅读物种的种群频率和种群参数的估计，IJ Good，Biometrika，1953。在这里，他在不同的上下文中使用了对数：变量转换为方差稳定（提到 Bartlett 和 Anscombe），谐波级数之和，熵。我们看到他通常使用 $\log$ 作为自然对数，并且在论文中偶尔指定 $\log_e$ 或者 $\log_{10}$ ，当上下文需要时。对于方差稳定或基本熵估计，对数上的一个因子不会对结果产生太大影响，因为结果允许线性变化。

在Akaike 信息准则中，基数是 $e$ ，和 $\ln(\hat L)$ 最大似然的 $\hat L$ 与参数数量相加比较 $k$ ：

A I C = 2 (k - \ln (L)) .

$\mathrm{AIC} = 2(k-\ln(L)).$

因此，如果您在 AIC 中对数使用任何其他底数，您最终可能会得出错误的结论并选择错误的模型。

其它你可能感兴趣的问题

上一篇当主要目标是仅估计少数组件时，PCA 或 FA 的最小样本量是多少？下一篇“归一化”是什么意思以及如何验证样本或分布是否归一化？