数据挖掘 - 逻辑回归 - 为什么指数（对数比率）是线性的 - 吾爱随笔录

逻辑回归 - 为什么指数（对数比率）是线性的

数据挖掘逻辑回归

2022-02-13 13:45:47

一般来说，我是 ds 和 stats 的新手。我阅读了大量文章以了解逻辑回归。我知道它为什么起作用以及当目标变量是二进制时它如何适合 1 和 0 的散点图。但是我仍然不明白的一个难题是有人怎么得出这个

ln(p/1-p) = B0 + B1X1 + ..

我看到所有文章都假设这是链接函数，然后继续讨论它如何解决我们的二元变量回归问题。但是这个链接功能是如何产生的。

2个回答

p 是一个概率，所以它严格在 0 和 1 之间。所以 ln(p/(1-p)) 是：

对于 p = 0：ln(0/1) = -Inf

对于 p = 1：ln(1/0) = +Inf

所以现在您已将概率重新调整为 +/- Inf。在 GLM 框架中，您几乎可以使用任何将概率缩放到 +/-Inf 的函数（参见任何 GLM 教科书，或https://stats.stackexchange.com/questions/20523/difference-between-logit-and-probit-models）。

它是怎么来的？好吧，数学家和统计学家意识到他们需要一个具有上述性质的函数，他们进行了思考，想出了一些，决定了那些具有易于处理的渐近性质的函数，探索了它们如何处理真实数据并决定合理的那些是 logit（如上所述），概率（参见参考资料）和其他一些。当然，您应该始终根据您的数据测试您的模型假设，链接的选择只是这些假设中的另一个，就像假设协变量中的线性一样。

logistic function关于为什么会出现的一个直观答案是Logistic Regression从生成模型的角度来看，这导致了线性判别分析模型。

基本上，这个想法是，而不是直接建模likelihood $p(y|x)$ 像在logistic regression. 你建模class-conditional $p(x|y)$ 和 $p(y)$ ，然后导出输出 $p(y)$ 通过贝叶斯法则。

p (y | x) = \frac{p (x | y) p (y)}{p (x)}

$p(y|x) = \frac{p(x|y) p(y)}{p(x)}$

事实证明，如果您通过高斯分布或指数族中的任何分布对输入进行建模（对于两个类别具有相同的色散参数），那么您的可能性logistic function是 $x$

p (y = 1 | x) = \frac{p (x | y = 1) p (y = 1)}{p (x | y = 1) p (y = 1) + p (x | y = 0) p (y = 0)}

$p(y = 1 | x) = \frac{p(x|y=1)p(y=1)}{p(x|y=1)p(y=1) + p(x|y=0)p(y=0)}$

在哪里

p (x | y = 1) = N (μ_{1}, Σ)

$p(x|y=1) = \mathcal{N(\mu_1, \Sigma)}$

p (x | y = 1) = N (μ_{0}, Σ)

$p(x|y=1) = \mathcal{N(\mu_0, \Sigma)}$

经过一些简化

p (y = 1 | x) = \frac{1}{1 + e x p (- w^{T} x - b)}

$p(y=1|x) = \frac{1}{1 + exp(-w^Tx - b)}$

在哪里 $w = \Sigma^{-1}(\mu_0 - \mu_1)$

这就解释了为什么logistic function会出现

其它你可能感兴趣的问题

上一篇sklearn.cross_validation.cross_val_score "cv" 参数问题下一篇如何改进现有的（训练有素的）分类器？