如何缩放小提琴图以进行比较?
机器算法验证
分布
数据可视化
非参数
2022-03-23 21:06:11
3个回答
老实说,我认为你从错误的方向接近它。所有三个图都清楚地告诉您有价值的信息 - 否则,您不会考虑使用哪个图。探索性数据分析是关于理解您的数据。符合预期的地方。没有的地方。它是如何在多个变量上形成的。
做 EDA的重点是评估我们的默认值,无论是分布还是共线性假设,将要使用的统计模型等是否合理。因此,“默认”EDA 的概念有些缺陷。
查看所有这些 - 或者至少查看与您打算提出的问题相关的所有情节。没有理由在 EDA 阶段将自己束缚在“什么是有趣的”和“我将忽略什么”中。如果我们只是通过默认值提供数据,那么它首先并不是真正的 EDA。
箱线图用于分布的示意图摘要。小提琴图只是箱线图,其中 Q1、Q2 和 Q3 箱被广泛的分位数替换。出于这个原因,我认为公认的做法是跨组使用统一的宽度。
但是,您提出了一个很好的观点:应该如何比较组间的密度?答案取决于您是将每个群体视为自己的群体还是亚群体。
我认为一个有用的 DEFAULT 行为是将完整数据视为我们想要估计的密度。这些组是亚群,因此全密度是亚密度的混合物。这表明每个子密度应按观察次数加权。k 组的面积(密度的积分)应该是 P_i,其中。这表明“加权区域”是一种好方法。
那么带宽呢?你考虑过吗?
如果您使用软件的默认设置来获取 pdf,那么您很可能使用经验法则来获得高斯内核的最佳带宽。然后,对于每个子集,该“最佳带宽”可能会有所不同。现在问问自己,这些形状还有可比性吗?可能是,有人会使用双重标准来测量相同的变量(核密度估计)。
对于核密度估计,已经制定了明确的规则来获得正确的带宽(某种交叉验证),但对于小提琴图,它们大多被忽略。当样本量差异很大时,可能很重要。
我现在有这个问题。你怎么看待这件事?你如何解决它?任何意见都非常感谢。