我试图找到可视化不同精度分布的最佳方法。这里的准确率是区间[0,1]中的一个值,0表示不准确,1表示最大准确率。
我有不同的比较方法,所以我决定使用小提琴图。

分布聚集在 1 附近,但它们也有一条长尾(第一个被切割为 0.45)。
为了更好地可视化这些图之间的差异,我如何转换数据(例如以对数尺度)?我想专注于区间 [0.8, 1],但我也想保留长尾。
我不想使用箱线图,因为在这种情况下,我看到它们没有正确显示分布(也因为下四分位数已经是 1)。
我还添加了相应的箱线图。

谢谢
我试图找到可视化不同精度分布的最佳方法。这里的准确率是区间[0,1]中的一个值,0表示不准确,1表示最大准确率。
我有不同的比较方法,所以我决定使用小提琴图。

分布聚集在 1 附近,但它们也有一条长尾(第一个被切割为 0.45)。
为了更好地可视化这些图之间的差异,我如何转换数据(例如以对数尺度)?我想专注于区间 [0.8, 1],但我也想保留长尾。
我不想使用箱线图,因为在这种情况下,我看到它们没有正确显示分布(也因为下四分位数已经是 1)。
我还添加了相应的箱线图。

谢谢
我对此有不同的看法。
不要对转型抱太大期望。我读到你的结果是说上四分位数(**不是*通常称为第一个四分位数)是 1;因此 >25% 的值与 1 相关,并且分布出现峰值。任何一对一的转换都会不可避免地将一个尖峰映射到一个尖峰。没有办法逃脱。(另外,参见#4:在出现尖峰的情况下,我不认为这种可视化是一个好主意,但在这种观点中有一些统计品味和判断。)[编辑:原件被编辑为说明下四分位数为 1。这极大地强化了 #1。]
日志转换绝对是不合适的,因为它会进一步拉长你的尾巴。它的逆,比如 exp(),在这里没有多大帮助,因为它在这个狭窄的范围内太接近线性了。一些高功率,比如第四或更高,应该使分布更加对称,但不能解决#1。
为什么你认为你需要转型?结果就是这样。认为您需要转换通常源于一种误解,即(例如)数据必须接近正常才能对它们做很多事情,但这是夸大其词。如果您详细说明您计划在此之后进行的分析,那么应该会有更好的建议。
我觉得这些可视化一点也不引人注目,只是因为很难读出分布之间的精确差异。我会尝试非常精细的分箱,例如 0.01 的间隔,然后使用对数频率标度查看直方图。在我看来,一个诚实的可视化会显示这样的尖峰,而不是平滑它们。