EDA 用于分析具有高基数的名义变量

数据挖掘 分类数据 数据分析
2022-02-12 22:55:34

我有一个具有非常高基数(约 8500 个标签)的名义变量(汽车模型),我想分析它与二进制目标变量的关系。虽然我可以创建逻辑组并比较每个组的目标变量的分布,但任何人都可以建议是否有任何高级技术/可视化工具用于此类分析?

1个回答

您可以计算每个分类变量的平均目标并比较其值。在熊猫中,这可以很容易地完成: df.groupby('categorical_feature').target.mean()

然后您可以制作直方图来比较该方法。我还发现,seaborn 有一个 catplot,它以条形图格式执行与上面相同的操作,显示基于每个分类变量的目标变量的平均值。