机器算法验证 - 什么时候逻辑回归贝叶斯最优？ - 吾爱随笔录

什么时候逻辑回归贝叶斯最优？

机器算法验证机器学习物流分类

2022-04-10 05:11:18

在逻辑回归中，我们借助 sigmoidal 函数 $P(y=1 | x)$

P (y = 1 | x) = \frac{1}{1 + \exp (- x)} = h (x)

$P(y=1 | x) = \frac{1}{1+\exp(-x)} = h(x)$

如果我们在的情况下将数据点分类为 y = 1 类，那么我们的分类是贝叶斯最优的吗，因为它选择根据较高的后验类概率进行分类？这是否与 log loss 的最小值是 $h(x) > 0.5$ $\ln\frac{h(x)}{1-h(x)}?$

2个回答

关键问题在于建模与了解真实规律。

假设您的数据遵循未知的完美定律。那么贝叶斯最优分类器就是“当时对 y=1 进行分类”。这适用于任何法律，与任何代数无关。在实践中，您不知道并且您也不知道，因此贝叶斯最优分类器只是一个理论对象。 $P(y=1|x)=f(x)$ $f(x)>0.5$ $f$

现在，假设您不知道但您知道并且只忽略。这仅发生在您控制基本真实定律并隐藏的模拟中。您将其估计为并说“当时分类 y=1 ”。这不是贝叶斯最优的，因为没有确切的。它是渐近贝叶斯最优的，因为有无限的训练数据。 $f$ $f(x)=logit^{-1}(\beta x)$ $\beta$ $\beta$ $\hat\beta$ $logit^{-1}(\hat\beta x)>0.5$ $\beta$ $\hat\beta=\beta$

但在真实情况下，逻辑回归只是对未知规律的猜测，它总是错误的。您不仅忽略了参数，还忽略了多少逻辑回归是真正未知定律的良好近似。那么逻辑回归预测器不是贝叶斯最优的。甚至不是渐近的。更糟糕的是：你不知道它离最优有多远。

有一种情况可以衡量这一点：用非逻辑的模拟数据，看看逻辑近似有多好。这不是一个真实的情况。 $f$

我认为当逻辑回归是渐近贝叶斯最优的（即，它最小化预期的 0/1 损失）时，可以构建一个示例。做到这一点的一种方法是考虑一个具有两个平衡（即，具有相等边际概率）正态分布类的域，这些类具有相同的协方差矩阵。在这种情况下，逻辑回归将学习与 LDA（线性判别分析）相同的分类器，该分类器在该域中是渐近贝叶斯最优的（这来自 L. Wasserman，All of Statistics 中的定理 22.7）。

其它你可能感兴趣的问题

上一篇使用missForest进行数据插补时如何解释OOBerror 下一篇非按比例分配样本的分层随机样本加权