我希望估计一个分层 GLM,但通过特征选择来确定哪些协变量在人口水平上是相关的。
假设我有G团体与N观察和K可能的协变量也就是说,我有协变量的设计矩阵,结果。这些协变量的系数是。x(N⋅G)×Ky(N⋅G)×1βK×1
假设 ~YBernoulli(p(x,β))
以下是具有 logit 采样模型和正态分布组系数的标准分层贝叶斯 GLM。
L(y|x,β1,...βG)∝∏g=1G∏t=1N(Pr{j=1|pt,βg})yg,t(1−Pr{j=1|pt,βg})1−yg,t
β1,...βG|μ,Σ∼iidNd(μ,Σ)
μ|Σ∼N(μ0,a−1Σ)
Σ∼IW(v0,V−10)
我想修改这个模型(或找到一篇论文,或讨论它的工作),以便在β的维度上有一些尖锐的特征选择(如在 LASSO 中) 。
(1) 最简单最直接的方法是在总体水平上对其进行正则化,以便我们从本质上限制μ的维数,并且所有β具有相同的维数。
(2) 更细致入微的模型会在组级别出现收缩,其中β的维数取决于层次单位。
我有兴趣解决 1 和 2,但更重要的是 1。