我有一个具有非常高基数(约 8500 个标签)的名义变量(汽车模型),我想分析它与二进制目标变量的关系。虽然我可以创建逻辑组并比较每个组的目标变量的分布,但任何人都可以建议是否有任何高级技术/可视化工具用于此类分析?
EDA 用于分析具有高基数的名义变量
数据挖掘
分类数据
数据分析
2022-02-12 22:55:34
1个回答
您可以计算每个分类变量的平均目标并比较其值。在熊猫中,这可以很容易地完成: df.groupby('categorical_feature').target.mean()
然后您可以制作直方图来比较该方法。我还发现,seaborn 有一个 catplot,它以条形图格式执行与上面相同的操作,显示基于每个分类变量的目标变量的平均值。
其它你可能感兴趣的问题