理解和解释字母值箱线图
机器算法验证
r
数据可视化
箱形图
2022-03-12 11:47:05
1个回答
关键术语是字母值(框)图,关键参考现在是
Hofmann、Heike、Wickham、Hadley 和 Kafadar、Karen。2017. 字母值图:大数据的箱线图。 计算与图形统计杂志10.1080/10618600.2017.1305277 http://dx.doi.org/10.1080/10618600.2017.1305277
本文的早期版本可以很容易地在网上找到。
据我了解,每个框的宽度仅表示框的定义方式。最胖的框位于(近似)四分位数的字母值之间,下一个最胖的框在(近似)四分位数和任一尾部之外的(近似)八分位数之间伸展,依此类推。积极地,这只是常见箱线图约定的扩展,每个框表示它是四分位数之间的间隔,否则宽度只是一个常规选择。(仅偶尔会显示指示每个值的数量的框。)
更消极一点的是,人们必须知道盒子的宽度是任意的。例如,它不是四四方方的密度图。
但在其他方面的解释与箱线图类似,例如样本的中心部分在这些范围内;在这些范围内的中央四分之三;等等。组或变量在分布上是相似还是不同?
有关不同重点的字母值的调查,请参阅
Cox, NJ 2016。Speaking Stata:作为选定分位数的字母值 Stata Journal 16(4): 1058-1071。 http://www.stata-journal.com/article.html?article=st0465
我必须代表那些提倡这个情节的人担心,天真的用户很可能将其解释为小提琴情节的块状版本,就像直方图是离散的密度图一样。显示比箱线图更多细节的理想是令人钦佩的,这种做法通常会有所帮助,但还有很多其他方法可以做到这一点。自然地,应该始终遵循阅读它是如何定义和构造的建议。
其它你可能感兴趣的问题