让特征包含一个值这发生在 5% 的时间,而 95% 的时间它是空的。
与其随意说不应该将少于 5% 的特征包含在模型中,有没有办法在数学上量化这个百分比?
让特征包含一个值这发生在 5% 的时间,而 95% 的时间它是空的。
与其随意说不应该将少于 5% 的特征包含在模型中,有没有办法在数学上量化这个百分比?
人们为什么这么说?
当您有那么多缺失值(95%)时,可以将其编码为特殊值,并且它本身在数量上看起来就是一个值。现在,当您开始将此功能用作“可用”时,最有可能发生的是您收到噪音,即冲突信息/非歧视性信息。换句话说,此功能将为所有类提供相同的信息(因为有 95% 的信息,这是最有可能的)。因此,您可以进行此编码,拟合随机森林并查看基尼系数(例如!),然后您可以在数学上量化此特征相对于问题和数据集的重要性。
如果您正在寻找数学上一般地量化这个百分比,那是不可能的,因为它都是相对的和特定的问题。根据经验,50% 以上的缺失值非常难以处理。
请注意,您甚至不必将其本身编码为值,只需适合lgbm模型,缺失的值将被分配最小化损失的值,您甚至可能会发现它毕竟不是那么无用。