如何缩放小提琴图以进行比较?

机器算法验证 分布 数据可视化 非参数
2022-03-23 21:06:11

我正在尝试绘制小提琴图,并想知道是否存在跨组缩放它们的公认最佳实践。以下是我使用 Rmtcars数据集尝试过的三个选项(Motor Trend Cars from 1973,在此处找到)。

等宽

似乎是原始论文* 所做的和 Rvioplot所做的(示例)。适合比较形状。

等面积小提琴图

等面积

感觉不错,因为每个图都是概率图,因此每个图的面积在某个坐标空间中应该等于 1.0。适合比较每组内的密度,但如果图被覆盖,似乎更合适。

等宽小提琴图

加权区域

与面积相等,但按观察次数加权。6-cyl 变得相对较薄,因为这些汽车较少。适合比较不同组的密度。

加权面积小提琴图

*小提琴图:箱线图-密度迹协同 (DOI: 10.2307/2685478)

3个回答

老实说,我认为你从错误的方向接近它。所有三个图都清楚地告诉您有价值的信息 - 否则,您不会考虑使用哪个图。探索性数据分析是关于理解您的数据。符合预期的地方。没有的地方。它是如何在多个变量上形成的。

做 EDA的重点是评估我们的默认值,无论是分布还是共线性假设,将要使用的统计模型等是否合理。因此,“默认”EDA 的概念有些缺陷。

查看所有这些 - 或者至少查看与您打算提出的问题相关的所有情节。没有理由在 EDA 阶段将自己束缚在“什么是有趣的”和“我将忽略什么”中。如果我们只是通过默认值提供数据,那么它首先并不是真正的 EDA。

箱线图用于分布的示意图摘要。小提琴图只是箱线图,其中 Q1、Q2 和 Q3 箱被广泛的分位数替换。出于这个原因,我认为公认的做法是跨组使用统一的宽度。

但是,您提出了一个很好的观点:应该如何比较组间的密度?答案取决于您是将每个群体视为自己的群体还是亚群体。

我认为一个有用的 DEFAULT 行为是将完整数据视为我们想要估计的密度。这些组是亚群,因此全密度是亚密度的混合物。这表明每个子密度应按观察次数加权。k 组的面积(密度的积分)应该是 P_i,其中这表明“加权区域”是一种好方法。ΣiPi=1

那么带宽呢?你考虑过吗?

如果您使用软件的默认设置来获取 pdf,那么您很可能使用经验法则来获得高斯内核的最佳带宽。然后,对于每个子集,该“最佳带宽”可能会有所不同。现在问问自己,这些形状还有可比性吗?可能是,有人会使用双重标准来测量相同的变量(核密度估计)。

对于核密度估计,已经制定了明确的规则来获得正确的带宽(某种交叉验证),但对于小提琴图,它们大多被忽略。当样本量差异很大时,可能很重要。

我现在有这个问题。你怎么看待这件事?你如何解决它?任何意见都非常感谢。