为什么我们在线性回归中建模噪声而不是逻辑回归?

机器算法验证 回归 物流 广义线性模型
2022-01-18 11:54:29

线性回归的典型概率解释是等于,加上高斯噪声随机变量yθTxϵ

然而,在标准逻辑回归中,我们不考虑标签的随机位翻转) 。这是为什么?py

2个回答

简短的回答:我们这样做,只是隐含地。


以下是一种可能更具启发性的看待事物的方式。

在普通最小二乘法中,我们可以考虑不将误差或噪声建模为分布,而是将观测值建模为分布。N(0,σ2)N(xβ,σ2)

(当然,这完全是一回事,只是从两种不同的角度来看而已。)

现在逻辑回归的类似陈述变得清晰:在这里,我们将观察建模为带有参数的伯努利分布p(x)=11+exβ

如果我们愿意,我们可以翻转最后一种思考方式:我们确实可以说我们正在对逻辑回归中的错误进行建模。的伯努利分布变量与本身之间的差异”。p(x)p(x)

这非常笨拙,而且这个分布没有名字,加上这里的误差取决于我们的自变量(与 OLS 中的同方差假设相反,其中误差与无关),所以这种查看方式东西只是不经常使用。xx

为了补充斯蒂芬的答案,类似于线性回归中的目标y是由一个“系统的”组件产生的,涉及x和一个独立的“噪声”组件,在逻辑回归(以及更普遍的 softmax 回归)中,您实际上也可以考虑目标y由以下涉及的运算计算得出x和一些噪音ϵ

y=argmaxi{0,1}(αi+ϵi)

其中都是遵循分布的独立“噪声”变量;您可以根据需要检查这种方式跟随 Bernoulli 与α0=0,α1=θTxϵ0,ϵ1Gumbel(0,1)yP(y=1|x)=1/(1+eθTx)

这种从分类(在本例中为伯努利)分布中采样的方式被广泛称为机器学习中的 Gumbel-max 技巧:https ://lips.cs.princeton.edu/the-gumbel-max-trick-for-discrete -distributions/ (基本思想来自重新参数化技巧。还有一个密切相关的 Gumbel-softmax 技巧,它本质上将 Gumbel-max 的上述操作变为可微分)。argmax