具有极远点的数据可视化

数据挖掘 r 可视化
2021-10-04 02:55:17

我想显示两组的分数。但是,对于这两个组,都有一些点与每个组内的大多数其他点相距甚远,如下所示。对这种情况有什么建议吗?谢谢你。

在此处输入图像描述

2个回答

如果要查看隐藏在底部的数据的分布情况,可以添加直方图或概率图,甚至是小提琴图。每个都会比这个箱线图更清楚地显示数据的分布,你仍然可以直接看到真实值。您还可以向箱线图添加一些抖动,以查看显示的更多重叠点。

抖动: 在此处输入图像描述


小提琴: 在此处输入图像描述


带箱线图的概率图: 在此处输入图像描述

如果值大于 0,您可以应用对数,Value并且您应该能够更多地比较分布。您可以做的另一件事是裁剪某个值(比如说Value = 10),但您会丢失一些信息。

如果您的值不大于 0 但有一个下限(比如说-t),您可以应用 transform log(x + t),并且对数不会爆炸。