特征选择:置换测试与删除变量

机器算法验证 预测模型 特征选择 置换检验
2022-04-08 09:44:06

在预测模型的特征选择中,通常应用排列测试。在这个测试中,一个变量的所有值都被随机排列,并为每个排列提取预测精度。例如,如果我们有 3 个变量(特征),则所有变量的 ACC 为 0.9。并且,在置换测试中,当第一、第二和第三个变量被置换时,我们分别得到 0.2、0.1 和 0.9 的 ACC。因此,可以删除第三个变量,因为它对预测没有帮助。

但是,如果我们删除变量或将所有值更改为零,而不是随机排列值,我们会得到与排列测试相同的结果吗?

1个回答

我认为结果可能非常相似,除非您使用的分类算法有偏见。

置换单个变量不会影响数据集的特征。如果你的数据集有条记录个特征,如果你置换其中一个,它仍然会有条记录和如果您删除一个特征或将其设置为 0,则生成的数据集将具有特征。这是一个微妙的点:个特征的数据集和具有个特征的数据集上的精度不能直接比较。nmnmm1mm1

随机森林(RF)通常使用置换方法:为了计算特征的重要性,我们比较置换后准确度的下降。我想如果您只是删除该功能,那么您在比较结果准确性时就不太有信心了。

例如,假设我们有 2 个特征二进制且非常具有预测性,而具有很多类别且根本没有预测性。众所周知,由于类别众多,RF 偏向于F1F2F2

  • 如果您对其进行置换,则数据集的特征不会改变,并且 RF 精度的差异只是由于的预测性所致;F2
  • 如果你删除它,RF 精度的差异可能会更高,因为它考虑到你帮助 RF 减少了它的偏差。