特征选择的随机排列测试

机器算法验证 回归 物流 特征选择 置换检验 正则化
2022-03-16 14:51:50

我对逻辑回归上下文中特征选择的排列分析感到困惑。
您能否清楚地解释随机排列测试以及它如何应用于特征选择?可能带有精确的算法和示例。

最后,它与 Lasso 或 LAR 等其他收缩方法相比如何?

1个回答

(现在时间不多,简单回答一下,以后再展开)

假设我们正在考虑一个二元分类问题,并且有一个包含个 1 类样本和2 类样本的训练集。特征选择的置换测试分别查看每个特征。为特征计算测试统计量,例如信息增益或均值之间的归一化差异。然后,该特征的数据被随机排列并分成两组,一组大小为,一组大小为然后根据这个新的分区计算测试统计量mnθmnθpp. 根据问题的计算复杂性,然后将特征的所有可能分区重复为两组或这些的随机子集。mn

现在我们已经在上建立了分布,我们计算观察到的测试统计量从特征的随机分区产生的 p 值。原假设是每个类的样本来自相同的底层分布(特征无关)。θpθ

在所有特征上重复这个过程,然后可以通过两种方式选择用于分类的特征子集:

  • P 值最低N
  • 所有 p 值<ϵ