数据挖掘 - EDA 用于分析具有高基数的名义变量 - 吾爱随笔录

数据挖掘分类数据数据分析

2022-02-12 22:55:34

我有一个具有非常高基数（约 8500 个标签）的名义变量（汽车模型），我想分析它与二进制目标变量的关系。虽然我可以创建逻辑组并比较每个组的目标变量的分布，但任何人都可以建议是否有任何高级技术/可视化工具用于此类分析？

1个回答

您可以计算每个分类变量的平均目标并比较其值。在熊猫中，这可以很容易地完成： df.groupby('categorical_feature').target.mean()

然后您可以制作直方图来比较该方法。我还发现，seaborn 有一个 catplot，它以条形图格式执行与上面相同的操作，显示基于每个分类变量的目标变量的平均值。

其它你可能感兴趣的问题