在处理机器学习分类算法的高基数多值分类变量时,我试图找到常用的技术。
One-hot 编码会导致非常高的维度。我采用的方法是目标编码/平均编码。当分类特征是单一选择(例如当前邮政编码)时,我了解如何使用它。但是,当该功能可以从一个大列表中获取多个值(例如最喜欢的爱好、疾病症状、大学课程)时,我不确定如何组合这些值。
我的直觉说,错误的方法是将每个独特的组合作为自己的因素并对其进行编码,因为这会导致过度拟合。想到的其他事情是简单的聚合,例如 sum/avg/product/variance。
应该如何组合目标编码值?