在预测模型的特征选择中,通常应用排列测试。在这个测试中,一个变量的所有值都被随机排列,并为每个排列提取预测精度。例如,如果我们有 3 个变量(特征),则所有变量的 ACC 为 0.9。并且,在置换测试中,当第一、第二和第三个变量被置换时,我们分别得到 0.2、0.1 和 0.9 的 ACC。因此,可以删除第三个变量,因为它对预测没有帮助。
但是,如果我们删除变量或将所有值更改为零,而不是随机排列值,我们会得到与排列测试相同的结果吗?
在预测模型的特征选择中,通常应用排列测试。在这个测试中,一个变量的所有值都被随机排列,并为每个排列提取预测精度。例如,如果我们有 3 个变量(特征),则所有变量的 ACC 为 0.9。并且,在置换测试中,当第一、第二和第三个变量被置换时,我们分别得到 0.2、0.1 和 0.9 的 ACC。因此,可以删除第三个变量,因为它对预测没有帮助。
但是,如果我们删除变量或将所有值更改为零,而不是随机排列值,我们会得到与排列测试相同的结果吗?
我认为结果可能非常相似,除非您使用的分类算法有偏见。
置换单个变量不会影响数据集的特征。如果你的数据集有条记录个特征,如果你置换其中一个,它仍然会有条记录和如果您删除一个特征或将其设置为 0,则生成的数据集将具有特征。这是一个微妙的点:个特征的数据集和具有个特征的数据集上的精度不能直接比较。
随机森林(RF)通常使用置换方法:为了计算特征的重要性,我们比较置换后准确度的下降。我想如果您只是删除该功能,那么您在比较结果准确性时就不太有信心了。
例如,假设我们有 2 个特征二进制且非常具有预测性,而具有很多类别且根本没有预测性。众所周知,由于类别众多,RF 偏向于