什么是“袋状图”或“双变量箱线图”?

机器算法验证 数据可视化 双变量 箱形图
2022-03-15 06:42:16

找到了一篇介绍箱线图的多维(此处为双变量)版本的论文 - 袋图。那个bagplot到底是什么?我可以看到基于顶点的一系列嵌套多边形,其中一个多边形被声明为 bagplot。嵌套多边形构建的想法是什么?哪个多边形是bagplot(中心或保持平均点数)?bagplot 的边缘是否具有一些有用的属性(例如专门划分点集)?

1个回答

这是一个带有注释的示例:

这是The Bagplot: A Bivariate BoxplotPeter J. Rousseeuw、Ida Ruts 和 John W. Tukey 的文章,来自The American Statistician:http: //venus.unive.it/romanaz/ada2/bagplot.pdf

从那篇文章的摘要中:

“深度中位数”是最深的位置,它被一个包含 n/2 个深度最大的观测值的“袋子”包围。将袋子放大 3 倍会产生“栅栏”(未绘制)。袋子和栅栏之间的观测值用浅灰色环标记,而栅栏外的观测值则标记为异常值。bagplot 可视化数据的位置、分布、相关性、偏度和尾部。

以下是关键部分的图示:

在此处输入图像描述

可以在以下内容中找到其他讨论:

从包的帮助文档aplpack(针对R用户):

bagplot 是众所周知的箱线图的二元概括。它是由 Rousseeuw、Ruts 和 Tukey 提出的。在双变量情况下,箱线图的盒子变成了一个凸包,即袋状图的袋子。袋子里有 50% 的分数。围栏将围栏内的点与围栏外的点分开。它是通过增加袋子来计算的。循环被定义为包含围栏内所有点的凸多边形。如果所有点都在一条直线上,你会得到一个经典的箱线图。bagplot() 绘制与 Rousseeuw 等人中描述的非常相似的 bagplots。备注:二维中位数为近似值。小数据集存在已知的困难(但我认为对例如 10 点进行(图形)总结是不明智的。)

如果人们想要绘制多个(重叠的)袋状图,如果这些图是半透明的,会很方便。出于这个原因,透明标志已添加到 bagplot 命令中。如果透明度==TRUE,则 Alpha 层设置为“99”(十六进制)。这会导致 bagplots 显示为半透明,但仅当输出设备是 PDF 并使用以下命令打开时:pdf(file="filename.pdf", version="1.4")。因此,默认值为透明度==FALSE。Wouter Meuleman 提出了此功能以及指定不同颜色的参数。

还有一个例子:

library(aplpack)
attach(mtcars)
bagplot(wt, mpg, xlab="Car Weight", 
        ylab="Miles Per Gallon",
        main="Bagplot Example", 
        transparency = TRUE, 
        show.whiskers = FALSE, 
        # note that data a 'fence' separates inliers from outliers, 
        # and a 'loop' indicates the points outside the bag but 
        # inside the fence. In the 'bag' are 50 percent of all 
        # points
        show.loophull = TRUE, # draw 'loop'?
        show.baghull = TRUE)  # draw 'bag'?

在此处输入图像描述

相关问题: