如何处理潜在的多个分类变量

数据挖掘 特征工程 分类数据 聚合 虚拟变量
2022-02-17 00:36:09

我正在构建一个模型,该模型具有一些分类变量作为输入。我之前已经处理过这类数据,并应用了不同的技术来创建虚拟变量和因子评分但是,我现在有一个不同类型的问题,我看不到明显的最佳答案。

对于每个人,我们可以有这个分类变量的多个实例。当这种情况发生在数值变量上时,我通常根据上下文取最大值/平均值/最小值。我当然可以使用所说的上下文在这里构建类似的东西。但是,我对一般方法感到好奇。X

假设对于每个对象(输入矩阵中的行),我们可以有一个分类变量的多个条目。此外,假设所述变量可以具有许多不同的值,并且对于上下文,它可以与每行的组合相关。

这个变量的一般方法是什么?

1个回答

一种选择是对分类特征进行 one-hot 编码。然后增加特征的值以作为出现次数的计数器。

例如 - 如果您正在为购物车建模,其中一个特征是“苹果”,并且会计算购物车中苹果的数量。