在逻辑回归中,我们借助 sigmoidal 函数
如果我们在的情况下将数据点分类为 y = 1 类,那么我们的分类是贝叶斯最优的吗,因为它选择根据较高的后验类概率进行分类?这是否与 log loss 的最小值是
在逻辑回归中,我们借助 sigmoidal 函数
如果我们在的情况下将数据点分类为 y = 1 类,那么我们的分类是贝叶斯最优的吗,因为它选择根据较高的后验类概率进行分类?这是否与 log loss 的最小值是
关键问题在于建模与了解真实规律。
假设您的数据遵循未知的完美定律。那么贝叶斯最优分类器就是“当时对 y=1 进行分类”。这适用于任何法律,与任何代数无关。在实践中,您不知道并且您也不知道,因此贝叶斯最优分类器只是一个理论对象。
现在,假设您不知道但您知道并且只忽略。这仅发生在您控制基本真实定律并隐藏的模拟中。您将其估计为并说“当时分类 y=1 ”。这不是贝叶斯最优的,因为没有确切的。它是渐近贝叶斯最优的,因为有无限的训练数据。
但在真实情况下,逻辑回归只是对未知规律的猜测,它总是错误的。您不仅忽略了参数,还忽略了多少逻辑回归是真正未知定律的良好近似。那么逻辑回归预测器不是贝叶斯最优的。甚至不是渐近的。更糟糕的是:你不知道它离最优有多远。
有一种情况可以衡量这一点:用非逻辑的模拟数据,看看逻辑近似有多好。这不是一个真实的情况。
我认为当逻辑回归是渐近贝叶斯最优的(即,它最小化预期的 0/1 损失)时,可以构建一个示例。做到这一点的一种方法是考虑一个具有两个平衡(即,具有相等边际概率)正态分布类的域,这些类具有相同的协方差矩阵。在这种情况下,逻辑回归将学习与 LDA(线性判别分析)相同的分类器,该分类器在该域中是渐近贝叶斯最优的(这来自 L. Wasserman,All of Statistics 中的定理 22.7)。