Logistic回归中对数赔率和加权和之间的关系

数据挖掘 逻辑回归 数学
2022-02-23 16:28:02

我已经阅读了几篇关于逻辑回归的文章/教程,并且遇到了对数赔率等于特征加权和的想法。

即如果p是样本属于正类的概率(目标变量:1),(1p)是它属于负数的概率(目标变量:0)。然后,对于输入特征x1,x2,x3...xn和权重θ0,θ1,θ2...θn, 他们写

log(p1p)=x0θ0+x1θ1+x2θ2xnθn

在哪里x0是偏见

现在我知道了什么是特征,我知道了什么是特征的加权和,我知道几率,我知道对数,但我无法理解的是,这两个数量如何相等?我浏览了很多在线文章,但他们总是说这两者是平等的,但他们没有解释如何。

1个回答

普通回归、逻辑回归、泊松回归都是广义线性模型(GLM)的例子。

一个 GLM 可以分解为 3 个组件:

  • 随机分量:目标变量Yi假设它遵循一个分布E(Yi)Var(Yi)
  • 系统成分:特征变量的线性组合,称为线性预测器;γi=β0+β1x1+βnxn

  • 链接组件:链接功能,g(),将随机分量连接到系统分量。如果E(Yi)=ui,则链接函数连接μiγi通过一些功能g(),然后我们就有了 g(μi)=β0+β1x1+βnxn. 而且,E(Yi)=μi=g1(β0+β1x1+βnxn)

线性回归的链接函数是识别链接:g(μi)=μi

逻辑回归的链接函数是 logit 链接:g(μ)=log(μ1μ). logit 链接在以下情况下使用μ取 0 到 1 之间的值,因为函数映射到 -infinity 到 infinity。

我故意略读了很多细节,GLM 是一个丰富的主题。我建议阅读更多有关它的信息,以下是一些参考资料:

参考:

Alan Agresti 的分类数据分析

分类数据分析简介

希望这可以帮助!