我试图总结到目前为止我在使用高维数据集的惩罚性多元分析中所理解的内容,但我仍然在努力正确定义软阈值与套索(或) 处罚。
更准确地说,我使用稀疏 PLS 回归来分析 2 块数据结构,包括基因组数据(单核苷酸多态性,我们将 {0,1,2} 范围内的次要等位基因的频率视为数值变量)和连续表型(量化人格特征或大脑不对称的分数,也被视为连续变量)。这个想法是分离出最有影响力的预测因子(这里是 DNA 序列上的遗传变异)来解释个体间的表型变异。
我最初使用了mixOmics R 包(以前integrOmics
),它具有惩罚PLS回归和正则化CCA。查看 R 代码,我们发现预测变量中的“稀疏性”只是通过选择顶部来诱导的具有最高载荷(绝对值)的变量第一个组件,(该算法是迭代的并计算变量加载组件,在每次迭代时对预测器块进行放气,请参阅稀疏 PLS:集成 Omics 数据时的变量选择以获取概述)。相反,由 S. Keleş合着的 spl 包(请参阅Sparse Partial Least Squares Regression for Simultaneous Dimension Reduction and Variable Selection,以更正式地描述这些作者所采用的方法)实现- 可变惩罚的惩罚。
对我来说,是否存在严格的“双射”并不明显,也就是说,在基于软阈值的迭代特征选择和正则化。所以我的问题是:两者之间有什么数学联系吗?
参考
- Chun, H. 和 Kele ̧s, S. (2010),用于同时降维和变量选择的稀疏偏最小二乘法。皇家统计学会杂志:B 系列,72,3-25。
- Le Cao, K.-A.、Rossouw, D.、Robert-Granie, C. 和 Besse, P. (2008),A Sparse PLS for Variable Selection when Integrating Omics Data。遗传学和分子生物学中的统计应用,7,第 35 条。