机器算法验证 - 如何缩放小提琴图以进行比较？ - 吾爱随笔录

机器算法验证分布数据可视化非参数

2022-03-23 21:06:11

我正在尝试绘制小提琴图，并想知道是否存在跨组缩放它们的公认最佳实践。以下是我使用 Rmtcars数据集尝试过的三个选项（Motor Trend Cars from 1973，在此处找到）。

等宽

似乎是原始论文* 所做的和 Rvioplot所做的（示例）。适合比较形状。

等面积小提琴图

感觉不错，因为每个图都是概率图，因此每个图的面积在某个坐标空间中应该等于 1.0。适合比较每组内的密度，但如果图被覆盖，似乎更合适。

等宽小提琴图

与面积相等，但按观察次数加权。6-cyl 变得相对较薄，因为这些汽车较少。适合比较不同组的密度。

加权面积小提琴图

*小提琴图：箱线图-密度迹协同 (DOI: 10.2307/2685478)

3个回答

老实说，我认为你从错误的方向接近它。所有三个图都清楚地告诉您有价值的信息 - 否则，您不会考虑使用哪个图。探索性数据分析是关于理解您的数据。符合预期的地方。没有的地方。它是如何在多个变量上形成的。

做 EDA的重点是评估我们的默认值，无论是分布还是共线性假设，将要使用的统计模型等是否合理。因此，“默认”EDA 的概念有些缺陷。

查看所有这些 - 或者至少查看与您打算提出的问题相关的所有情节。没有理由在 EDA 阶段将自己束缚在“什么是有趣的”和“我将忽略什么”中。如果我们只是通过默认值提供数据，那么它首先并不是真正的 EDA。

箱线图用于分布的示意图摘要。小提琴图只是箱线图，其中 Q1、Q2 和 Q3 箱被广泛的分位数替换。出于这个原因，我认为公认的做法是跨组使用统一的宽度。

但是，您提出了一个很好的观点：应该如何比较组间的密度？答案取决于您是将每个群体视为自己的群体还是亚群体。

我认为一个有用的 DEFAULT 行为是将完整数据视为我们想要估计的密度。这些组是亚群，因此全密度是亚密度的混合物。这表明每个子密度应按观察次数加权。k 组的面积（密度的积分）应该是 P_i，其中。这表明“加权区域”是一种好方法。 $\Sigma_i P_i = 1$

那么带宽呢？你考虑过吗？

如果您使用软件的默认设置来获取 pdf，那么您很可能使用经验法则来获得高斯内核的最佳带宽。然后，对于每个子集，该“最佳带宽”可能会有所不同。现在问问自己，这些形状还有可比性吗？可能是，有人会使用双重标准来测量相同的变量（核密度估计）。

对于核密度估计，已经制定了明确的规则来获得正确的带宽（某种交叉验证），但对于小提琴图，它们大多被忽略。当样本量差异很大时，可能很重要。

我现在有这个问题。你怎么看待这件事？你如何解决它？任何意见都非常感谢。

其它你可能感兴趣的问题