逻辑回归与逻辑分布有何关系?

机器算法验证 回归 物流 造型 物流配送
2022-04-14 00:54:17

我们都知道逻辑回归是通过逻辑函数来计算概率的。对于依赖分类随机变量y和一组n预测因子X=[X1X2Xn]概率p

p=P(y=1|X)=11+e(α+βX)

逻辑分布的 cdf 由其尺度和位置sμ

F(x)=11exμs

因此,对于很容易看出X=X1

s=1β,μ=αs

通过这种方式,我们映射了 sigmoid 曲线的两种形式。X有多个预测变量时,这种映射如何工作?X=[X1X2],我从三维角度看到的内容如下图所示。

因此,s=[s1s2]μ=[μ1μ2]将变为

s=β1,μ=αs

p将来自X中的参数和预测变量的线性组合。逻辑回归函数的未知参数与逻辑分布的 cdf 相关的方式是我在这里试图理解的。如果有人可以就此事提供见解,我将很高兴。

2个回答

定义逻辑回归的一种方法是将其引入为 其中是一个线性预测器。这只是说明模型而没有说明它的来源。

P(Y=1X=x)=11+eη(x)
η(x)=βTx

或者,我们可以尝试从一些基本原理开发模型。假设可能存在某种潜在的、潜在的(不可直接测量的)压力压力,我们用表示它,它决定了某个结果的概率。可能是死亡(如剂量反应研究)或违约,如信用风险建模。有一些分布取决于,例如由 cdf (累积分布函数)给出。假设感兴趣的结果()发生在对于某个阈值时。然后 θθxF(θ;x)Y=1θCC

P(Y=1X=x)=P(θCX=x)=F(C;x)
现在物流分布wiki有cdf因此,如果我们假设潜在变量具有我们最终得到的逻辑分布,假设线性预测器表示通过 : 所以在简单回归我们得到截距和斜率11+exμσθη(x)μμ=βTx
P(Y=1x)=11+eCβxσ
C/σβ1/σ

如果潜在变量具有其他分布,我们将获得 logit 模型的替代方案。例如,潜在变量的正态分布导致概率。与此相关的帖子是 Logistic Regression - Error Term and its Distribution

一种思考方式是考虑逻辑回归的潜在变量解释。在这种解释中,我们考虑的线性模型,这是一个潜在的(即未观察到的)变量,表示的“倾向” 。YY=1

所以,我们有我们将 Y 的观测值Y,其中是指示函数。Y=Xβ+ϵYY=I(Y>0)I(.)

的逻辑分布分布时,逻辑回归模型正确地描述也就是说,的正确模型。分布为均值为 0 方差为 1 的正态分布时,概率回归模型正确地描述假设概率模型,两个变量之间的的隐含相关性。ϵπ23YP(Y=1)=11+eXβYϵYY1Y2Y1Y2

潜在变量解释的一个好处是,模型系数可以解释为的线性变化,对应于保持其他变量不变的预测变量的 1 个单位变化,这与逻辑回归经常使用的对数优势比解释相反(而且似乎几乎不可能解释概率回归系数)。的建模隐含均值和标准差,的标准化单位有多少相关,就像您对任意比例的连续结果一样。此外,无论是否使用逻辑、概率或其他类型的回归模型或误差分布,这种解释都有效。YYY