软阈值与 Lasso 惩罚

机器算法验证 多元分析 套索 特征选择 遗传学
2022-03-03 08:23:59

我试图总结到目前为止我在使用高维数据集的惩罚性多元分析中所理解的内容,但我仍然在努力正确定义软阈值套索(或大号1) 处罚。

更准确地说,我使用稀疏 PLS 回归来分析 2 块数据结构,包括基因组数据(单核苷酸多态性,我们将 {0,1,2} 范围内的次要等位基因的频率视为数值变量)和连续表型(量化人格特征或大脑不对称的分数,也被视为连续变量)。这个想法是分离出最有影响力的预测因子(这里是 DNA 序列上的遗传变异)来解释个体间的表型变异。

我最初使用了mixOmics R 包(以前integrOmics),它具有惩罚PLS回归和正则化CCA查看 R 代码,我们发现预测变量中的“稀疏性”只是通过选择顶部来诱导的ķ具有最高载荷(绝对值)的变量一世第一个组件,一世=1,,ķ(该算法是迭代的并计算变量加载ķ组件,在每次迭代时对预测器块进行放气,请参阅稀疏 PLS:集成 Omics 数据时的变量选择以获取概述)。相反,由 S. Keleş合着的 spl 包(请参阅Sparse Partial Least Squares Regression for Simultaneous Dimension Reduction and Variable Selection,以更正式地描述这些作者所采用的方法)实现大号1- 可变惩罚的惩罚。

对我来说,是否存在严格的“双射”并不明显,也就是说,在基于软阈值的迭代特征选择和大号1正则化。所以我的问题是:两者之间有什么数学联系吗?

参考

  1. Chun, H. 和 Kele ̧s, S. (2010),用于同时降维和变量选择的稀疏偏最小二乘法皇家统计学会杂志:B 系列72,3-25
  2. Le Cao, K.-A.、Rossouw, D.、Robert-Granie, C. 和 Besse, P. (2008),A Sparse PLS for Variable Selection when Integrating Omics Data遗传学和分子生物学中的统计应用7,第 35 条。
2个回答

大号1惩罚是优化问题的一部分。软阈值是算法的一部分。有时大号1惩罚导致软阈值。

对于回归,大号1惩罚最小二乘法 (Lasso) 在X矩阵是正交的(假设行对应于不同的样本)。当您考虑均值估计的特殊情况时,推导非常简单,其中X矩阵由单个1在每一行中,其他地方为零。

对于一般X矩阵,通过循环坐标下降计算 Lasso 解决方案导致本质上是迭代软阈值。请参阅http://projecteuclid.org/euclid.aoas/1196438020

我要说的适用于回归,但也适用于 PLS。所以这不是双射,因为取决于你在l1,你会有各种各样的“答案”,而第二个解决方案只承认p可能的答案(其中p是变量的数量)<-> 有更多的解决方案l1比在“截断”公式中的公式。