数据挖掘 - 为什么二进制分类对数损失公式没有明确表明正在使用自然对数？ - 吾爱随笔录

为什么二进制分类对数损失公式没有明确表明正在使用自然对数？

数据挖掘分类机器学习模型损失函数

2022-03-05 16:16:23

我正在完成一门 DataCamp 课程，向我们介绍了二进制分类的对数损失公式：

给出了两个场景来说明如何使用该公式。一个 p=0.1，一个 p=0.5。教师给出的答案分别为 2.3 和 0.69。但是，使用计算器，log(0.1) 和 log(0.5) 的答案分别为 -1 和 -0.30。后来我尝试改用自然对数，得到了和导师一样的答案，除了否定。具体来说，计算器为 ln(0.1) 返回 -2.3，为 ln(0.5) 返回 -0.69。

在数学中，log 暗示为“ln”或“log e”而不在公式中明确说明是否很常见？另外，对数损失二进制分类公式有什么建议应该取结果的绝对值吗？

1个回答

这归结为基数变化公式。对于任意两个数 $a$ 和 $b$ ，以下等式成立。

\log_{a} (x) = \frac{\log_{b} (x)}{\log_{b} (a)} .

$\log_a(x) = \frac{\log_b(x)}{\log_b(a)}.$

这意味着误差是成比例的。因此，如果您想更改为使用 $\log_{10}$ ，您最终会简单地乘以一个常数因子，并且模型选择将是相同的。

明确地说，

l o g l o s s (N = 1) = \frac{y \log_{10} (p) + (1 - y) \log_{10} (p)}{\log_{10} (e)}

$logloss(N=1) = \frac{y \log_{10}(p) + (1 - y) \log_{10}(p)}{\log_{10}(e)}$

或者，等效地

l o g l o s s (N = 1) \cdot \log_{10} (e) = y \log_{10} (p) + (1 - y) \log_{10} (p)

$logloss(N=1) \cdot \log_{10}(e) = y \log_{10}(p) + (1 - y) \log_{10}(p)$

换句话说：对数的底数无关紧要，因为一切最终都是成比例的。

其它你可能感兴趣的问题

上一篇ScikitLearn - RandomForestRegressor 在网格搜索内外得分不同下一篇在自然语言处理的背景下，任何人都可以举一个真阳性、真阴性、假阳性、假阴性的具体例子吗？