数据挖掘 - 聚合目标编码的类似数组的分类特征？ - 吾爱随笔录

在处理机器学习分类算法的高基数多值分类变量时，我试图找到常用的技术。

One-hot 编码会导致非常高的维度。我采用的方法是目标编码/平均编码。当分类特征是单一选择（例如当前邮政编码）时，我了解如何使用它。但是，当该功能可以从一个大列表中获取多个值（例如最喜欢的爱好、疾病症状、大学课程）时，我不确定如何组合这些值。

我的直觉说，错误的方法是将每个独特的组合作为自己的因素并对其进行编码，因为这会导致过度拟合。想到的其他事情是简单的聚合，例如 sum/avg/product/variance。

应该如何组合目标编码值？