我对逻辑回归上下文中特征选择的排列分析感到困惑。
您能否清楚地解释随机排列测试以及它如何应用于特征选择?可能带有精确的算法和示例。
最后,它与 Lasso 或 LAR 等其他收缩方法相比如何?
我对逻辑回归上下文中特征选择的排列分析感到困惑。
您能否清楚地解释随机排列测试以及它如何应用于特征选择?可能带有精确的算法和示例。
最后,它与 Lasso 或 LAR 等其他收缩方法相比如何?
(现在时间不多,简单回答一下,以后再展开)
假设我们正在考虑一个二元分类问题,并且有一个包含个 1 类样本和2 类样本的训练集。特征选择的置换测试分别查看每个特征。为特征计算测试统计量,例如信息增益或均值之间的归一化差异。然后,该特征的数据被随机排列并分成两组,一组大小为,一组大小为。然后根据这个新的分区计算测试统计量. 根据问题的计算复杂性,然后将特征的所有可能分区重复为两组和或这些的随机子集。
现在我们已经在上建立了分布,我们计算观察到的测试统计量从特征的随机分区产生的 p 值。原假设是每个类的样本来自相同的底层分布(特征无关)。
在所有特征上重复这个过程,然后可以通过两种方式选择用于分类的特征子集: