有几篇描述贝叶斯套索的大量数学论文,但我想要经过测试的、正确的 JAGS 代码,我可以使用它。
有人可以发布实现正则化逻辑回归的示例 BUGS / JAGS 代码吗?任何方案(L1、L2、Elasticnet)都很好,但 Lasso 是首选。我还想知道是否有有趣的替代实施策略。
有几篇描述贝叶斯套索的大量数学论文,但我想要经过测试的、正确的 JAGS 代码,我可以使用它。
有人可以发布实现正则化逻辑回归的示例 BUGS / JAGS 代码吗?任何方案(L1、L2、Elasticnet)都很好,但 Lasso 是首选。我还想知道是否有有趣的替代实施策略。
由于 L1 正则化等效于相关系数的拉普拉斯(双指数)先验,您可以按如下方式进行。这里我有三个自变量 x1、x2 和 x3,y 是二进制目标变量。正则化参数的选择在这里通过在其上放置一个超先验来完成,在这种情况下,只是在一个合适的范围内均匀。
model {
# Likelihood
for (i in 1:N) {
y[i] ~ dbern(p[i])
logit(p[i]) <- b0 + b[1]*x1[i] + b[2]*x2[i] + b[3]*x3[i]
}
# Prior on constant term
b0 ~ dnorm(0,0.1)
# L1 regularization == a Laplace (double exponential) prior
for (j in 1:3) {
b[j] ~ ddexp(0, lambda)
}
lambda ~ dunif(0.001,10)
# Alternatively, specify lambda via lambda <- 1 or some such
}
让我们使用 R 中的包来试试吧dclone
!
library(dclone)
x1 <- rnorm(100)
x2 <- rnorm(100)
x3 <- rnorm(100)
prob <- exp(x1+x2+x3) / (1+exp(x1+x2+x3))
y <- rbinom(100, 1, prob)
data.list <- list(
y = y,
x1 = x1, x2 = x2, x3 = x3,
N = length(y)
)
params = c("b0", "b", "lambda")
temp <- jags.fit(data.list,
params=params,
model="modela.jags",
n.chains=3,
n.adapt=1000,
n.update=1000,
thin=10,
n.iter=10000)
以下是与非正则逻辑回归相比的结果:
> summary(temp)
<< blah, blah, blah >>
1. Empirical mean and standard deviation for each variable,
plus standard error of the mean:
Mean SD Naive SE Time-series SE
b[1] 1.21064 0.3279 0.005987 0.005641
b[2] 0.64730 0.3192 0.005827 0.006014
b[3] 1.25340 0.3217 0.005873 0.006357
b0 0.03313 0.2497 0.004558 0.005580
lambda 1.34334 0.7851 0.014333 0.014999
2. Quantiles for each variable: << deleted to save space >>
> summary(glm(y~x1+x2+x3, family="binomial"))
<< blah, blah, blah >>
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) 0.02784 0.25832 0.108 0.9142
x1 1.34955 0.32845 4.109 3.98e-05 ***
x2 0.78031 0.32191 2.424 0.0154 *
x3 1.39065 0.32863 4.232 2.32e-05 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
<< more stuff deleted to save space >>
我们可以看到这三个b
参数确实已经缩小到了零。
我对拉普拉斯分布的超参数/正则化参数的先验了解不多,很抱歉。我倾向于使用均匀分布并查看后验,看看它是否看起来表现得相当好,例如,没有堆积在端点附近,并且几乎在中间达到顶峰,没有可怕的偏度问题。到目前为止,情况通常如此。将其视为方差参数并使用 Gelman Prior 分布对分层模型中的方差参数的建议也适用于我。