机器算法验证 - 特征选择：置换测试与删除变量 - 吾爱随笔录

特征选择：置换测试与删除变量

机器算法验证预测模型特征选择置换检验

2022-04-08 09:44:06

在预测模型的特征选择中，通常应用排列测试。在这个测试中，一个变量的所有值都被随机排列，并为每个排列提取预测精度。例如，如果我们有 3 个变量（特征），则所有变量的 ACC 为 0.9。并且，在置换测试中，当第一、第二和第三个变量被置换时，我们分别得到 0.2、0.1 和 0.9 的 ACC。因此，可以删除第三个变量，因为它对预测没有帮助。

但是，如果我们删除变量或将所有值更改为零，而不是随机排列值，我们会得到与排列测试相同的结果吗？

1个回答

我认为结果可能非常相似，除非您使用的分类算法有偏见。

置换单个变量不会影响数据集的特征。如果你的数据集有条记录个特征，如果你置换其中一个，它仍然会有条记录和如果您删除一个特征或将其设置为 0，则生成的数据集将具有特征。这是一个微妙的点：个特征的数据集和具有个特征的数据集上的精度不能直接比较。 $n$ $m$ $n$ $m$ $m-1$ $m$ $m-1$

随机森林（RF）通常使用置换方法：为了计算特征的重要性，我们比较置换后准确度的下降。我想如果您只是删除该功能，那么您在比较结果准确性时就不太有信心了。

例如，假设我们有 2 个特征二进制且非常具有预测性，而具有很多类别且根本没有预测性。众所周知，由于类别众多，RF 偏向于 $F_1$ $F_2$ $F_2$

如果您对其进行置换，则数据集的特征不会改变，并且 RF 精度的差异只是由于的预测性所致； $F_2$
如果你删除它，RF 精度的差异可能会更高，因为它考虑到你帮助 RF 减少了它的偏差。

其它你可能感兴趣的问题

上一篇Box-Cox 参数估计是否计入 AIC 的参数？下一篇具有不平衡类的朴素贝叶斯