为什么频率编码有效?

数据挖掘 机器学习 特征工程 分类数据 编码 频率编码
2021-09-30 02:40:27

频率编码是 Kaggle 比赛中广泛使用的技术,并且多次被证明是处理具有高基数的分类特征的一种非常合理的方式。我真的不明白为什么它会起作用。

它是否适用于频率与目标相关的非常特殊的情况,还是更普遍?其背后的原理是什么?

2个回答

检查这篇文章

在频率与目标变量有些相关的情况下,它有助于模型理解并根据数据的性质以正比和反比分配权重。

还要检查这个线程

其背后的原理是什么?

高基数可能会导致维度灾难,实际上会降低模型的质量。

频率编码


这是一种利用类别频率作为标签的方法。频率与目标变量有些相关的情况下,它有助于模型理解并根据数据的性质以正比和反比分配权重。将类别替换为在数据集中显示该类别的观察计数。同样,我们可以用数据集中观察的频率或百分比来替换类别。

如果频率与目标相关,它会有所帮助,并且它可以帮助模型理解较小的类别比较大的类别更不可信,特别是当频率编码与其他类型的编码并行使用时。

计数或频率编码的优点

  • 直接实施。
  • 不扩展特征空间。
  • 可以很好地与基于树的算法一起工作。

计数或频率编码的限制

  • 不会自动处理测试集中的新类别。
  • 如果有两个不同的类别具有相同数量的观察计数,我们可能会丢失有价值的信息——这是因为我们用相同的数量替换它们。