Beta分布和逻辑回归模型之间有什么关系?

机器算法验证 回归 物流 数理统计 贝塔分布
2022-02-02 10:18:02

我的问题是: Beta 分布逻辑回归模型的系数之间的数学关系是什么

举例说明:逻辑(sigmoid)函数由下式给出

f(x)=11+exp(x)

它用于对逻辑回归模型中的概率进行建模。为二分得分结果,为设计矩阵。逻辑回归模型由下式给出A(0,1)X

P(A=1|X)=f(Xβ).

注意的第一列是常数(截距),是回归系数的列向量。例如,当我们有一个(标准正态)回归量并选择(截距)和时,我们可以模拟得到的“概率分布”。X1βxβ0=1β1=1

P(A=1|X) 的直方图

该图提醒了 Beta 分布(与其他选择的图一样),其密度由下式给出β

g(y;p,q)=Γ(p)Γ(q)Γ(p+q)y(p1)(1y)(q1).

使用最大似然法或矩量法,的分布中估计因此,我的问题归结为:的选择之间有什么关系这首先解决了上面给出的双变量情况。pqP(A=1|X)βpq

3个回答

Beta 是范围内的值分布,其形状非常灵活,因此对于中值的几乎任何单峰经验分布,您可以轻松找到“类似”形状的这种 beta 分布的参数的分布。(0,1)(0,1)

请注意,逻辑回归为您提供了条件概率,而在您的绘图上,您向我们展示了预测概率的边际分布这是两个不同的话题。Pr(Y=1X)

从逻辑回归模型中查看预测的分布时,逻辑回归参数与贝塔分布参数之间没有直接关系。您可以在下面看到使用逻辑函数转换的正态分布、指数分布和均匀分布模拟的数据。除了使用完全相同的逻辑回归参数(即)外,预测概率的分布非常不同。因此预测概率的分布不仅取决于逻辑回归的参数,还取决于的分布,它们之间没有简单的关系。β0=0,β1=1X

在正态、指数和均匀分布下模拟的数据的逻辑函数

由于 beta 是中值的分布,因此它不能像逻辑回归那样用于对二进制数据进行建模。它可以用来对概率建模,这样我们就可以使用beta 回归(另见这里这里)。因此,如果您对概率(理解为随机变量)的行为感兴趣,您可以为此目的使用 beta 回归。(0,1)

也许没有直接联系?的分布很大程度上取决于您对的模拟。如果您使用将具有给定的对数正态分布。然后可以显式找到的分布逆 cdf和 pdf其中与 Beta 分布的那些不相似。P(A=1|X)XXN(0,1)exp(Xβ)μ=1β0=β1=1P(A=1|X)

F(x)=1Φ[ln(1x1)+1],
Q(x)=11+exp(Φ1(1x)1),
f(x)=1x(1x)2πexp((ln(1/x1)+1)22),

您可以在R中验证上面给出的结果:

n = 100000

X = cbind(rep(1, n), rnorm(n)) # simulate design matrix
Y = 1 / (exp(-X %*% c(1,1)) + 1) # P(A=1|X)

Z1 = 1 / (rlnorm(n, -1, 1) + 1) # simulate from lognormal directly
Z2 = 1 / (1 + exp(qnorm(runif(n)) - 1)) # simulate with inverse CDF

# Kolmogorov–Smirnov test
ks.test(Y, Z1)
ks.test(Y, Z2)

# plot fitted density
new.pdf = function(x) {
  1 / (x * (1 - x) * sqrt(2 * pi)) * exp(-0.5 * (log(1 / x - 1) + 1)^2)
}
hist(Y, breaks = "FD", probability = T)
curve(new.pdf, col = 4, add = T)

在此处输入图像描述

逻辑回归是广义线性模型 (GLM) 的一个特例。在这种二进制数据的特殊情况下,逻辑函数是将手头的非线性回归问题转换为线性问题的规范链接函数。GLM 有点特殊,因为它们仅适用于指数族分布(例如二项式分布)。

在贝叶斯估计中,Beta 分布是二项分布之前的共轭分布,这意味着使用二项式观察对 Beta 先验进行贝叶斯更新将导致 Beta 后验。因此,如果您对二进制数据的观察计数,您可以通过使用 Beta 先验来获得二项式分布参数的分析贝叶斯估计。

因此,按照其他人所说的那样,我认为没有直接关系,但 Beta 分布和逻辑回归都与估计遵循二项分布的事物的参数密切相关。