机器算法验证 - 特征选择的随机排列测试 - 吾爱随笔录

特征选择的随机排列测试

机器算法验证回归物流特征选择置换检验正则化

2022-03-16 14:51:50

我对逻辑回归上下文中特征选择的排列分析感到困惑。
您能否清楚地解释随机排列测试以及它如何应用于特征选择？可能带有精确的算法和示例。

最后，它与 Lasso 或 LAR 等其他收缩方法相比如何？

1个回答

（现在时间不多，简单回答一下，以后再展开）

假设我们正在考虑一个二元分类问题，并且有一个包含个 1 类样本和2 类样本的训练集。特征选择的置换测试分别查看每个特征。为特征计算测试统计量，例如信息增益或均值之间的归一化差异。然后，该特征的数据被随机排列并分成两组，一组大小为，一组大小为。然后根据这个新的分区计算测试统计量 $m$ $n$ $\theta$ $m$ $n$ $\theta_p$ $p$ . 根据问题的计算复杂性，然后将特征的所有可能分区重复为两组和或这些的随机子集。 $m$ $n$

现在我们已经在上建立了分布，我们计算观察到的测试统计量从特征的随机分区产生的 p 值。原假设是每个类的样本来自相同的底层分布（特征无关）。 $\theta_p$ $\theta$

在所有特征上重复这个过程，然后可以通过两种方式选择用于分类的特征子集：

P 值最低的 $N$
所有 p 值 $<\epsilon$

其它你可能感兴趣的问题

上一篇具有伽马分布的混合模型：处理零点下一篇风险比的估计对数近似正态分布