频率编码是 Kaggle 比赛中广泛使用的技术,并且多次被证明是处理具有高基数的分类特征的一种非常合理的方式。我真的不明白为什么它会起作用。
它是否适用于频率与目标相关的非常特殊的情况,还是更普遍?其背后的原理是什么?
频率编码是 Kaggle 比赛中广泛使用的技术,并且多次被证明是处理具有高基数的分类特征的一种非常合理的方式。我真的不明白为什么它会起作用。
它是否适用于频率与目标相关的非常特殊的情况,还是更普遍?其背后的原理是什么?
这是一种利用类别频率作为标签的方法。在频率与目标变量有些相关的情况下,它有助于模型理解并根据数据的性质以正比和反比分配权重。将类别替换为在数据集中显示该类别的观察计数。同样,我们可以用数据集中观察的频率或百分比来替换类别。
如果频率与目标相关,它会有所帮助,并且它可以帮助模型理解较小的类别比较大的类别更不可信,特别是当频率编码与其他类型的编码并行使用时。