我正在研究统计学,经常遇到包含 的公式,log
如果我应该将其解释为 的标准含义log
,即以 10 为底,或者在统计学中该符号log
通常被假定为自然对数,我总是感到困惑ln
。
特别是我正在研究Good-Turing频率估计作为一个例子,但我的问题更多的是一般性的。
我正在研究统计学,经常遇到包含 的公式,log
如果我应该将其解释为 的标准含义log
,即以 10 为底,或者在统计学中该符号log
通常被假定为自然对数,我总是感到困惑ln
。
特别是我正在研究Good-Turing频率估计作为一个例子,但我的问题更多的是一般性的。
假设没有明确的基础是安全的在统计中,因为在统计中不经常使用以 10 为底的日志。然而,其他海报提出了一个观点,即或其他基础在应用统计学的其他一些领域可能很常见,例如信息论。因此,当您阅读其他领域的论文时,有时会感到困惑。
维基百科的熵页面是混淆使用的一个很好的例子. 在同一页中,它们的意思是基数 2,和任何基地。您可以通过上下文找出是哪一个,但这需要阅读文本。这不是展示材料的好方法。将其与对数页面进行比较,在该页面中,每个公式中都清楚地显示了底数或用来。我个人认为这是要走的路:总是在使用符号。这也符合ISO 标准,因为该标准没有定义未指定基础的使用@Henry 指出的符号。
最后,ISO 31-11 标准规定和以 2 和 10 为底的对数的符号。如今,两者都很少使用。我记得我们用过在高中,但那是在另一个世界的另一个世纪。自从在统计环境中使用以来,我从未见过它。甚至没有标签在乳胶中。
这取决于。
以 10 为底的对数在方程式中非常少见。但是,对数比例图通常以 10 为底,尽管这应该很容易从轴上的标签中验证。在数学环境中,一个朴素的很可能是自然对数(即,或者)。另一方面,计算机科学经常使用以 2 为底的对数 (),并且它们并不总是如此清楚地标记。
好消息是,您可以轻松地在碱基之间进行转换,而使用“错误”的碱基只会使您的答案偏离一个常数因子。
在 Gale 1995 年的“Good-Turing without Tears”论文中,文本中的对数实际上是 (第 5 页上是这样说的),但附录中的 R/S+ 代码使用了该log
函数,它实际上是或者. 正如@Henry 在下面指出的那样,这没有实际区别。
如果我被迫猜测,这里有一些启发式方法:
如果是 2 的幂,, 或 10 也存在,日志很可能有相应的基数。
如果它源于整合(或者,更一般地说,涉及微积分),它很可能是一个自然对数。
如果它是由于重复将某物一分为二而产生的(如二分搜索),它很可能是. 更一般地,一些东西可以被划分为大约次。
信息论计算通常使用,尤其是在现代工作中。但是,您可以检查单位以确保:,, 和.
其他与单位相关的线索包括分贝 (dB),它表示和八度音阶,这表明.
找到函数下降或上升到的点, (分别为 37% 和 63%)的初始值表示自然对数。
回答你的问题:不,你不能假设对数有一个一般的固定符号。
SE.Math最近讨论了一个类似的问题:这三种类型的对数有什么区别?从数学的角度来看。一般来说,有不同的符号取决于习惯(似乎用于医学研究)或语言(例如德语、俄语、法语)。不幸的是,相同的符号有时会代表不同的定义。引用上面的 SE.Math 链接:
符号(几乎)明确表示自然对数 (拉丁语:logarithmus naturalis),或以底为底的对数. 符号应该是自然对数的采用符号,在数学中也是如此。但是,它通常代表“最自然”的领域,具体取决于领域:我将其作为基础学习——对数 () 在学校,它在工程中经常使用这种方式(例如在分贝的定义中)
通常,如果您不关心物理单位的含义(例如分贝@Matt Krause),也不对特定的变化率感兴趣(在生物统计学中, -倍数变化的比率通常表示基数-对数),很可能是自然对数 () 用来。
例如,在幂或 Box-Cox 变换(用于方差稳定)中,当指数趋于.
回到你最初的动机,Good-Turing 频率估计,有趣的是阅读物种的种群频率和种群参数的估计,IJ Good,Biometrika,1953。在这里,他在不同的上下文中使用了对数:变量转换为方差稳定(提到 Bartlett 和 Anscombe),谐波级数之和,熵。我们看到他通常使用作为自然对数,并且在论文中偶尔指定 或者,当上下文需要时。对于方差稳定或基本熵估计,对数上的一个因子不会对结果产生太大影响,因为结果允许线性变化。
在Akaike 信息准则中,基数是, 和最大似然的与参数数量相加比较:
因此,如果您在 AIC 中对数使用任何其他底数,您最终可能会得出错误的结论并选择错误的模型。