数据挖掘 - 如何确定可以从模型中删除特征的百分比 - 吾爱随笔录

如何确定可以从模型中删除特征的百分比

数据挖掘特征选择特征提取数据科学模型

2022-03-03 07:20:49

让特征 $feat$ 包含一个值 $A$ 这发生在 5% 的时间，而 95% 的时间它是空的。

与其随意说不应该将少于 5% 的特征包含在模型中，有没有办法在数学上量化这个百分比？

1个回答

人们为什么这么说？

当您有那么多缺失值（95%）时，可以将其编码为特殊值，并且它本身在数量上看起来就是一个值。现在，当您开始将此功能用作“可用”时，最有可能发生的是您收到噪音，即冲突信息/非歧视性信息。换句话说，此功能将为所有类提供相同的信息（因为有 95% 的信息，这是最有可能的）。因此，您可以进行此编码，拟合随机森林并查看基尼系数（例如！），然后您可以在数学上量化此特征相对于问题和数据集的重要性。

如果您正在寻找数学上一般地量化这个百分比，那是不可能的，因为它都是相对的和特定的问题。根据经验，50% 以上的缺失值非常难以处理。

请注意，您甚至不必将其本身编码为值，只需适合lgbm模型，缺失的值将被分配最小化损失的值，您甚至可能会发现它毕竟不是那么无用。

其它你可能感兴趣的问题

上一篇深度学习计算机视觉任务中的通道顺序有多重要？下一篇如何为 ML 选择输入变量