对高基数分类特征进行分箱

数据挖掘 预处理 分类数据
2022-02-05 20:50:11

我在预处理高基数分类特征(例如,美国城市)时尝试过的一种方法是对数据中的所有值进行值计数,然后取前 x 个最常出现的值(x 取决于频率分布) ,然后创建一个二进制标志功能,如“is_in_top_x_us_cities”。或者为前 x 个城市中的每一个创建一个热门功能。

有人可以解释这种方法相对于使用证据权重分箱的相对缺点吗?

1个回答

明显的缺点是您会丢失信息。

最好的方法可能是基于城市生成新特征,使用领域知识:城市规模,以及这些城市的相关地理/社会/经济特征。如果没有领域知识和其他数据,也许对您的数据进行聚类可以帮助将相似的城市分组在一起(尽管现在您的模型将在城市组以及您用于创建集群的数据中看到相同的信息)。

证据权重有点像聚类相似的城市,但仅根据您的目标变量。如果您的城市样本很少,那么 WoE 分数将受到高度可变性的影响,因此您可能无论如何都希望将它们放在一起。