“何时使用箱线图和何时使用条形图”规则(拇指?)

机器算法验证 箱形图 经验法则 条形图
2022-02-06 08:45:23

根据 The R Book (Crawley, 2013),盒须图和条形图都是ANOVA 的合适图形,但哪个更合适我想这取决于情况......有人可以帮助我吗?

2个回答

专门用于 ANOVA 的图形说明:

  • 对于 ANOVA,箱形图或条形图总比没有图形好得多,但正如通常绘制的那样,两者都是间接的或不完整的图形摘要。

  • ANOVA 是关于在一种或多种变化的背景下比较均值,因此最合适的图形将至少显示均值以及原始数据。组标准偏差 (SD) 或相关数量不会造成任何伤害。

  • 尽管有些箱线图显示均值和中位数,但标准类型显示中位数、四分位数和分布尾部的一些信息。最常见的变体似乎是当且仅当它们距离较近的四分位数超过 1.5 IQR 时才显示单个数据点。即:四分位间距 IQR上四分位数下四分位数,因此将点值绘制为大于上四分位数 1.5 IQR 或小于下四分位数=+1.5 IQR。这样的约定有助于显示可能对 ANOVA 有问题的总异常值,但中位数和四分位数在 ANOVA 中都没有任何作用,中位数是否近似均值是一个需要检查的点,而不是假设的。通常,有经验的数据分析师将例如明显的标记异常值和/或分布不对称作为需要采取行动的问题的标志,例如数据转换或需要具有非同一性链接函数的广义线性模型。然而,令人惊讶的是,有多少教科书和其他账户在展示 ANOVA 时显示箱形图,但没有提及不在房间里的大象,即未绘制的均值。

  • 相反,在这种情况下,最常见的条形图通过平均值和 SD 或标准误差来汇总数据,但在其他情况下省略了单个数据点的任何显示。因此,例如,异常值或显着的不对称性只能从个体组内的线外均值或夸大的可变性中推断出来。

一般来说,对于哪种图表有用,有很多建议,但关于哪种图表最好却没有达成共识。我建议作为一个好的图表显示的标准

  • 数据变化的完整模式,至少作为背景或上下文

  • 数据的相关摘要,特别是那些与正在接受的模型或正在考虑的描述符相关的摘要

  • 数据可能存在问题的迹象,这些问题使人们对所做的假设产生怀疑。

有几种有助于方差分析的设计,例如带有附加均值和 SE 的点图或条图。

John Tukey 的这篇论文解释了此处相关的宣传图分析图之间的区别。ANOVA 的太多图形插图都是宣传图(看!这些组非常不同),没有太多分析(我们还能从数据或该应用程序中的技术限制中了解到什么?)。

请不要混淆条形图(一个条用于显示每个感兴趣的数量)和炸药图(一个条显示每组的平均值,加上误差条)。炸药图是绝对不能接受的,因为它们完全无缘无故地隐藏了数据的分布。

是的,我意识到这是迄今为止最常见的情节类型。这是一个大问题,反映了研究人员对其数据形状的(低)重要性。如果您是寻找凶器的侦探,如果目击者告诉您 1) 只告诉您武器的位置和大小,会更好吗?或 2) 位置、大小和形状?

http://biostat.mc.vanderbilt.edu/wiki/pub/Main/TatsukiRcode/Poster3.pdf