聚合目标编码的类似数组的分类特征?

数据挖掘 机器学习 特征工程 编码
2022-01-30 21:30:23

在处理机器学习分类算法的高基数多值分类变量时,我试图找到常用的技术。

One-hot 编码会导致非常高的维度。我采用的方法是目标编码/平均编码。当分类特征是单一选择(例如当前邮政编码)时,我了解如何使用它。但是,当该功能可以从一个大列表中获取多个值(例如最喜欢的爱好、疾病症状、大学课程)时,我不确定如何组合这些值。

我的直觉说,错误的方法是将每个独特的组合作为自己的因素并对其进行编码,因为这会导致过度拟合。想到的其他事情是简单的聚合,例如 sum/avg/product/variance。

应该如何组合目标编码值?

1个回答

有几种选择:

  • 领域知识 - 鉴于您对领域的了解,结合最有意义的类别。

  • 经验 - 将组合类别视为超参数。搜索选项空间并根据交叉验证分数选择最佳组合。