首席执行官总结
历史比许多人想象的要长得多、复杂得多。
执行摘要
Tukey 所谓的箱形图的历史与现在通常称为点图或条形图(许多其他名称)的历史以及经验分位数函数的表示纠缠在一起。
John Wilder Tukey (1970, 1972, 1977) 的作品以广泛流行的形式最为著名。
但是,将中位数和四分位数显示为基本摘要的想法——通常但不总是与显示所有值的点一起——至少可以追溯到地理学家 Percy Robert Crowe(1933 年)引入的分散图(许多变体名称)。这些是地理学家的主食,从 1930 年代后期开始被用于许多教科书和研究论文中。
Bibby (1986, pp.56, 59) 甚至更早地提到了 Arthur Lyon Bowley(后来的 Arthur 爵士)在他关于 1897 年的讲座和他的建议(Bowley, 1910, p.62; 1952, p.73)中教导的类似想法) 使用最小值和最大值以及 10、25、50、75 和 90% 点作为图形汇总的基础。
显示极值和四分位数的范围条通常归因于 Mary Eleanor Spear (1952),但在我的阅读中,很少有人引用 Kenneth W. Haemer (1948)。Haemer 在 1950 年左右在American Statistician上发表的关于统计图形的文章具有创造性,具有批判性,仍然值得重读。(许多读者可以通过 jstor.org 访问它们。)相比之下,Spear 的书(Spear 1969 是一个翻版)易于理解且明智,但有意介绍性而非创新性或学术性。
胡须延伸到选定百分位数的箱线图变体比许多人想象的更常见。同样,从 1930 年代开始,地理学家就使用了等效的图。
Tukey 的箱线图版本中最原始的首先是识别尾部点的标准,这些点要单独绘制并确定为值得详细考虑 - 并且经常标记应该在转换的尺度上分析变量。他的 1.5 IQR 经验法则是在经过大量实验后才出现的。它在某些人手中已经变成了删除数据点的硬性规则,这绝不是 Tukey 的意图。一个有力的、令人难忘的名字——箱线图——在确保这些想法产生更广泛的影响方面没有任何害处。相比之下,色散图是一个相当枯燥乏味的术语。
这里相当长的参考列表可能与外观相反,并非详尽无遗。目的只是为箱线图的一些前体和替代方案提供文档。具体的参考资料可能有助于详细查询,或者如果它们靠近您的领域。相反,学习其他领域的实践可能是有益的。地理学家的图形——不仅仅是制图——的专业知识经常被低估。
更多细节
Crowe (1933, 1936), Matthews (1936), Hogg (1948), Monkhouse and Wilkinson (1952), Farmer (1956), Gregory (1963), Hammond and McCullagh (1974), Lewis 使用了混合点盒图(1975), Matthews (1981), Wilkinson (1992, 2005), Ellison (1993, 2001), Wild and Seber (2000), Quinn and Keough (2002), Young等人。(2006 年)和亨德利和尼尔森(2007 年)等。另见米勒 (1953, 1964)。
Cleveland (1985) 强调将胡须绘制到特定的百分位数,而不是四分位数的这么多 IQR 内的数据点,但 Matthews (1936) 和 Grove (1956) 预测了这一点,他们绘制了 interoctile 范围,即第一个和第一个第七个八分位数,以及范围和四分位数范围。Dury (1963), Johnson (1975), Harris (1999), Myatt (2007), Myatt and Johnson (2009, 2011) 和 Davino 等人。(2014) 显示了平均值以及最小值、四分位数、中位数和最大值。Schmid (1954) 展示了带有中位数、四分位数和 5% 和 95% 点的汇总图。Bentley (1985, 1988), Davis (2002), Spence (2007, 2014) 和 Motulsky (2010, 2014, 2018) 绘制了 5% 和 95% 的晶须。Morgan and Henrion (1990, pp.221, 241), Spence (2001, p.36), Gotelli and Ellison (2004, 2013, pp.72, 110, 213, 416) 将胡须绘制到 10% 和 90% 点。Harris (1999) 展示了 5% 和 95% 以及 10% 和 90% 的例子。Altman (1991, pp.34, 63) 和 Greenacre (2016) 将晶须绘制为 2.5% 和 97.5% 点。赖曼等人。(2008, pp.46-47) 将晶须绘制为 5% 和 95% 以及 2% 和 98% 点。
Parzen (1979a, 1979b, 1982) 将箱形图和分位数图混合为分位数箱形图。另见(例如)Shera (1991)、Militký 和 Meloun (1993)、Meloun 和 Militký (1994)。但是请注意,Keen (2010) 的分位数箱线图只是一个带有延伸到极端的胡须的箱线图。相比之下,JMP 的分位数箱线图显然是在 0.5%、2.5%、10%、90%、97.5%、99.5% 处标记的箱线图:参见 Sall等人。(2014 年,第 143-4 页)。
以下是关于分位数箱形图变体的一些注释。
(A) Esty 和 Banfield (2003)的百分位箱图以不同的方式绘制相同的信息,将数据绘制为连续线并生成对称显示,其中垂直轴显示分位数,水平轴显示不绘制位置,但两者min( ) 及其镜像 min( )。次要细节:在他们的论文中,绘图位置被错误地描述为“百分位数”。另见 Martinez等人。(2011 年,2017 年),这使这种混乱持续存在。pp,1−p−p,1−p
绘制 min(p,1−p)(或其百分比等价物)独立出现在 (B)“山图”(Krouwer 1992;Monti 1995;Krouwer 和 Monti 1995;Goldstein 1996)和(C)“翻转经验分布函数”的图中(Huh 1995) . 有关在任何分位数折叠分布函数的详细分析,另请参见 Xue 和 Titterington (2011)。
从我看到的文献来看,这些线程似乎都没有——分位数箱图或后来的变体(A)(B)(C)——相互引用。
!!!截至 2018 年 10 月 3 日,一些参考资料的详细信息需要在下一次编辑中提供。
Altman, DG 1991。
医学研究中的实用统计学。
伦敦:查普曼和霍尔。
Bentley, JL 1985。编程珍珠:选择。
ACM 28 通讯:1121-1127。
Bentley, JL 1988。
更多编程珍珠:程序员的自白。
马萨诸塞州雷丁:Addison-Wesley。
Bibby, J. 1986。
《统计教学史笔记》。
爱丁堡:约翰毕比(书籍)。
Bowley, AL 1910。
《统计初级手册》。
伦敦:麦克唐纳和埃文斯。(1952 年第七版)
克利夫兰,WS 1985。图形数据的元素。
加利福尼亚州蒙特雷:沃兹沃思。
Crowe, PR 1933。降雨概率分析:图形方法及其在欧洲数据中的应用。
苏格兰地理杂志49:73-91。
Crowe, PR 1936。西部平原的降雨情况。
地理评论26:463-484。
Davis, JC 2002。
地质学中的统计和数据分析。
纽约:约翰威利。
Dickinson, GC 1963。
统计映射和统计表示。
伦敦:爱德华·阿诺德。(1973 年第二版)
Dury, GH 1963。
东米德兰兹和山顶。
伦敦:托马斯·纳尔逊。
Farmer, BH 1956。锡兰干旱区的降雨和供水。在 Steel, RW and CA Fisher (eds)
Geographical Essays on British Tropical Lands。
伦敦:乔治菲利普,227-268。
Gregory, S. 1963。统计方法和地理学家。
伦敦:朗文。(后来的版本 1968、1973、1978;出版商后来的朗文)
Grove, AT 1956。尼日利亚的土壤侵蚀。在 Steel, RW and CA Fisher (eds)
Geographical Essays on British Tropical Lands。
伦敦:乔治菲利普,79-111。
Haemer, KW 1948。范围条形图。
美国统计学家2(2): 23。
亨德利、DF 和 B.尼尔森。2007.
计量经济学建模:一种可能性方法。
新泽西州普林斯顿:普林斯顿大学出版社。
Hogg, WH 1948。降雨分散图:讨论它们的优缺点。
地理33:31-37。
Ibrekk, H. 和 MG 摩根。1987. 与非技术人员进行不确定数量的图形通信。
风险分析7:519-529。
约翰逊,BLC 1975。
孟加拉国。伦敦:海涅曼教育。
Keen, KJ 2010。
与
佛罗里达州博卡拉顿合作的统计和数据分析图形:CRC 出版社。(2018 年第 2 版)
Lewis, CR 1975。城市状况变化分析:中威尔士和威尔士中部边境地区的案例研究。
英国地理学家学会
汇刊 64:49-65。
马丁内斯、WL、AR 马丁内斯和 JL 索尔卡。2011.
使用 MATLAB 进行探索性数据分析。
佛罗里达州博卡拉顿:CRC 出版社。
Matthews, HA 1936。一些熟悉的印度降雨的新观点。
苏格兰地理杂志52:84-97。
Matthews, JA 1981。
地理的定量和统计方法:实用手册。
牛津:佩加蒙。
Meloun, M. 和 J. Militký。1994. 分析化学计量学中的计算机辅助数据处理。一、单变量数据的探索性分析。
化学论文48:151-157。
Militký, J. 和 M. Meloun。1993. 用于单变量探索性数据分析的一些图形辅助工具。
分析化学学报277:215-221。
米勒,AA 1953。
地球的皮肤。
伦敦:梅休恩。(1964 年第 2 版)
Monkhouse,FJ 和 HR 威尔金森。1952.
地图和图表:它们的编译和构造。
伦敦:梅休恩。(后来的版本 1963、1971)
摩根,MG 和 M. Henrion。1990.
不确定性:量化风险和政策分析中的不确定性处理指南。
剑桥:剑桥大学出版社。
Myatt, GJ 2007。理解
数据:探索性数据分析和数据挖掘的实用指南。
新泽西州霍博肯:约翰威利。
Myatt, GJ 和 Johnson, WP 2009。
了解数据 II:数据可视化、高级数据挖掘方法和应用的实用指南。
新泽西州霍博肯:约翰威利。
Myatt, GJ 和 Johnson, WP 2011。理解
数据 III:设计交互式数据可视化的实用指南。
新泽西州霍博肯:约翰威利。
Ottaway, B. 1973。色散图:显示碳 14 日期的新方法。
考古学15:5-12。
Parzen,E. 1979a。非参数统计数据建模。
杂志,美国统计协会 74:105-121。
Parzen, E. 1979b。稳健估计的密度分位数函数视角。在 Launer、RL 和 GN Wilkinson (eds)统计中的稳健性。
纽约:学术出版社,237-258。
Parzen, E. 1982。使用分位数和密度分位数函数的数据建模。在 Tiago de Oliveira, J. 和 Epstein, B. (eds)
一些最近的统计进展。伦敦:学术出版社,23-52。
Quinn,全科医生和 MJ Keough。2002.
生物学家的实验设计和数据分析。
剑桥:剑桥大学出版社。
Reimann, C.、P. Filzmoser、RG Garrett 和 R. Dutter。2008.
解释统计数据分析:R.
Chichester 的应用环境统计:John Wiley。
Sall, J.、A. Lehman、M. Stephens 和 L. Creighton。2014.
JMP 开始统计:使用 JMP 进行统计和数据分析的指南。
北卡罗来纳州卡里:SAS 研究所。
Shera, DM 1991。分位数图的一些用途,以增强数据表示。
计算科学与统计23:50-53。
矛,ME 1952。图表统计。
纽约:麦格劳-希尔。
矛,ME 1969。实用制图技术。
纽约:麦格劳-希尔。
Tukey, JW 1970。
探索性数据分析。限量初版。第 I 卷
,马萨诸塞州阅读:Addison-Wesley。
Tukey, JW 1972。一些图形和半图形显示。在 Bancroft, TA 和 Brown, SA (eds)
中纪念 George W. Snedecor 的统计论文。
爱荷华州艾姆斯:爱荷华州立大学出版社,293-316。(也可在http://www.edwardtufte.com/tufte/tukey 访问)
Tukey, JW 1977。
探索性数据分析。
马萨诸塞州雷丁:Addison-Wesley。
Wild、CJ 和 GAF Seber。2000.
偶遇:数据分析和推理的第一门课程。
纽约:约翰威利。