机器算法验证 - 包含反对零假设显着性检验的论点的参考文献？ - 吾爱随笔录

包含反对零假设显着性检验的论点的参考文献？

机器算法验证假设检验统计学意义参考 p 值

2022-01-20 02:39:15

在过去的几年里，我阅读了许多反对在科学中使用零假设显着性检验的论文，但我没想过要保留一份持久的清单。一位同事最近问我要这样一个列表，所以我想我会请这里的每个人帮助建立它。首先，这是我目前所拥有的：

3个回答

Chris Fraley 教授了一整门关于辩论历史的课程（链接似乎已断开，尽管它仍在他的官方网站上；这是Internet Archive 中的副本）。他的总结/结论在这里（再次，存档副本）。根据弗雷利的主页，他上一次教授这门课程是在 2003 年。

他在这份清单的开头加上“教师的偏见”：

虽然我的目标是促进就手头的问题进行生动、深入和公平的讨论，但我认为有必要从一开始就明确表达我的偏见。Paul Meehl 曾经说过，“罗纳德 [费舍尔] 爵士迷惑了我们，迷惑了我们，并带领我们走上了报春花之路。我相信几乎普遍依赖仅仅驳斥零假设作为在软文中证实实质性理论的标准方法领域是一个可怕的错误，基本上是不健全的、糟糕的科学策略，是心理学史上发生过的最糟糕的事情之一。” 我赞同 Meehl 的观点。我在本次研讨会上的目标之一是阐明为什么我认为会出现这种情况。此外，我希望您在完成本次研讨会时，

如果课程页面消失，我将复制到阅读列表中：

第 1 周。简介：什么是零假设显着性检验？事实、神话和我们的科学状况

莱肯，DL (1991)。心理学有什么问题？在 D. Cicchetti & WM Grove (eds.), Thinking Clearing about Psychology, vol. 1：公共利益问题，纪念 Paul E. Meehl 的论文（第 3 – 39 页）。明尼苏达州明尼阿波利斯：明尼苏达大学出版社。

第 2 周。对 NHST 的早期批评

梅尔，体育（1967 年）。心理学和物理学中的理论检验：方法论悖论。科学哲学，34，103-115。

米尔，体育（1978 年）。理论风险和表格星号：卡尔爵士、罗纳德爵士和软心理学的缓慢进展。咨询与临床心理学杂志，46，806-834。

罗泽布姆，WW (1960)。原假设显着性检验的谬误。心理公报，57，416-428。

巴坎，D.（1966 年）。心理学研究中的显着性检验。心理公报，66，423-437。[选修的]

第 3 周。 NHST 的当代批评

科恩，J. (1994)。地球是圆的 (p < .05)。美国心理学家，49，997-1003。

Gigerenzer, G. (1993)。统计推理中的超我、自我和本我。在 G. Keren & C. Lewis (Eds.)，行为科学数据分析手册：方法论问题 (pp. 311-339)。新泽西州希尔斯代尔：Lawrence Erlbaum Associates。

佛罗里达州施密特和日本脑炎亨特 (1997)。在研究数据分析中停止显着性检验的八个常见但错误的反对意见。在 Lisa A. Harlow、Stanley A. Mulaik 和 James H. Steiger (Eds.) 中，如果没有显着性检验怎么办？（第 37-64 页）。新泽西州马瓦：Lawrence Erlbaum Associates。

奥克斯，M. (1986)。统计推断：社会和行为科学评论。纽约：威利。（第 2 章 [对显着性检验的批判]）[可选]

第 4 周。反驳：NHST 的拥护者为其辩护

弗里克，RW (1996)。适当使用零假设检验。心理方法，1, 379-390。

哈根，RL (1997)。赞美零假设统计检验。美国心理学家，52 岁，15-24 岁。

Wilkinson, L. 和统计推断工作组。(1999)。心理学期刊中的统计方法：指南和解释。美国心理学家，54，594-604。

怀纳，H. (1999)。为零假设显着性检验欢呼。心理方法，6，212-213。

Mulaik, SA, Raju, NS 和 Harshman, RA (1997)。显着性测试有时间和地点。在 Lisa A. Harlow、Stanley A. Mulaik 和 James H. Steiger 中，Eds。如果没有显着性检验怎么办？（第 65-116 页）。新泽西州马瓦：Lawrence Erlbaum Associates。[选修的]

第 5 周。反驳：NHST 的拥护者为其辩护

阿贝尔森，RP (1997)。关于被鞭打的马的惊人寿命：为什么需要进行显着性检验。心理科学，8，12-15。

克鲁格，J. (2001)。零假设显着性检验：关于有缺陷方法的生存。美国心理学家，56 岁，16-26 岁。

Scarr, S. (1997)。证据规则：统计辩论的更大背景。心理科学，8，16-17。

Greenwald, AG, Gonzalez, R., Harris, RJ, & Guthrie, D. (1996)。效应大小和 p 值：应该报告什么，应该复制什么？心理生理学, 33, 175-183。

尼克森，RS (2000)。零假设显着性检验：对一个古老且持续存在的争议的回顾。心理学方法，5，241-301。[选修的]

哈里斯，RJ (1997)。显着性检验占有一席之地。心理科学，8、8-11。[选修的]

第 6 周。效应量

罗森塔尔，R. (1984)。社会研究的元分析程序。加利福尼亚州比佛利山庄：圣人。[频道。2、定义研究成果]

周，SL（1988 年）。显着性检验或效应量？心理公报，103、105-110。

阿贝尔森，RP (1985)。一个方差解释悖论：一点就是很多。心理公报，97，129-133。[选修的]

第 7 周。统计能力

Hallahan, M. 和 Rosenthal, R. (1996)。统计能力：概念、程序和应用。行为研究与治疗，34, 489-499。

Sedlmeier, P. 和 Gigerenzer, G. (1989)。统计功效研究对研究功效有影响吗？心理公报，105，309-316。

科恩，J. (1962)。异常社会心理学研究的统计功效：综述。异常与社会心理学杂志，65，145-153。[选修的]

马多克，JE，罗西，JS（2001 年）。在三个健康心理学相关期刊上发表的文章的统计能力。健康心理学, 20, 76-78。[选修的]

Thomas, L. & Juanes, F. (1996)。统计功效分析的重要性：动物行为的一个例子。动物行为，52, 856-859。[选修的]

JS 罗西 (1990)。心理学研究的统计力量：20年我们得到了什么？咨询与临床心理学杂志，58，646-656。[选修的]

图基，JW (1969)。分析数据：圣化还是侦探工作？美国心理学家，24 岁，83-91 岁。[选修的]

第 8 周。置信区间和显着性检验

加德纳、MJ 和 DG 奥特曼。1986. 置信区间而不是 P 值：估计而不是假设检验。英国医学杂志，292, 746-750。

Cumming, G. 和 Finch, S. (2001)。了解、使用和计算基于中心分布和非中心分布的置信区间的入门读物。教育和心理测量，61，532-574。

Loftus, GR, & Masson, MEJ (1994)。在受试者内设计中使用置信区间。心理公报和评论，1，476-490。

第 9 周 [注意：我们将跳过本节]。理论建模：开发自然现象的正式模型

海夫纳，JW (1996)。生物系统建模：原理和应用。纽约：国际汤姆森出版社。（第 1 章【系统模型】和第 2 章【建模过程】）

洛林，JC (1992)。潜在变量模型：因子、路径和结构分析简介。新泽西州希尔斯代尔：Lawrence Erlbaum Associates。（第 1 章 [因子、路径和结构分析中的路径模型]，第 1-18 页]

格兰特，DA（1962）。检验零假设和研究理论模型的策略。心理评论，69, 54-61。[选修的]

粘合剂，A.（1963 年）。进一步考虑检验零假设和研究理论模型的策略和策略。心理评论，70，107-115。[选修的]

爱德华兹，W.（1965 年）。关于科学假设和统计假设之间关系的战术说明。心理公报，63, 400-402。[选修的]

第 10 周。概率的含义是什么？关于相对频率和主观概率的争议

萨尔斯堡，D.（2001 年）。品茶的女士：统计学如何在 20 世纪彻底改变科学。纽约：WH弗里曼。（第 10、11 和 12 章）

奥克斯，M. (1986)。统计推断：社会和行为科学评论。纽约：威利。（第 4、5 和 6 章）

普鲁泽克，RM（1997 年）。贝叶斯推理及其应用简介。在 Lisa A. Harlow、Stanley A. Mulaik 和 James H. Steiger 中，Eds。如果没有显着性检验怎么办？（第 287-318 页）。新泽西州马瓦：Lawrence Erlbaum Associates。

Rindskoph, DM (1997)。测试“小”而非零假设：经典和贝叶斯方法。在 Lisa A. Harlow、Stanley A. Mulaik 和 James H. Steiger (Eds)。如果没有显着性检验怎么办？（第 319-332 页）。新泽西州马瓦：Lawrence Erlbaum Associates。

Edwards, W., Lindman, H., Savage, LJ (1963)。用于心理学研究的贝叶斯统计推断。心理评论，70，193-242。[选修的]

第 11 周。理论评估：科学哲学与理论的检验和修正

米尔，PE（1990）。评估和修正理论：拉卡托斯防御战略和两个保证它的原则。心理调查，1, 108-141。

Roberts, S. & Pashler, H. (2000)。合适的人选有多有说服力？对理论测试的评论。心理评论，107，358-367。

第 12 周。理论评估：科学哲学与理论的检验和修正

Urbach, P. (1974)。“智商辩论”中的进步与退化（上）. 英国科学哲学杂志，25, 99-125。

Serlin, RC & Lapsley, DK (1985)。心理学研究中的理性：足够好原则。美国心理学家，40，73-83。

达尔，R. (1987)。再看看 Meehl、Lakatos 和心理学家的科学实践。美国心理学家，42，145-151。

Gholson, B. & Barker, P. (1985)。Kuhn、Lakatos 和 Laudan：物理学和心理学史中的应用。美国心理学家，40，755-769。[选修的]

Faust, D. 和 Meehl, PE (1992)。用科学方法解决科学史和科学哲学中的问题：一些插图。行为疗法, 23, 195-211。[选修的]

Urbach, P. (1974)。“智商辩论”中的进步与退化（二）．英国科学哲学杂志，25, 235-259。[选修的]

三文鱼，WC（1973 年，5 月）。确认。《科学美国人》，228，75-83。[选修的]

米尔，体育（1993 年）。科学哲学：帮助还是阻碍？心理报告，72，707-733。[可选] Manicas。PT 和 Secord，PF（1983 年）。新科学哲学对心理学的启示。美国心理学家，38，399-413。[选修的]

第 13 周。NHST 传统是否破坏了心理学中无偏见的累积知识库？

Cooper, H.、DeNeve, K. 和 Charlton, K. (1997)。寻找缺失的科学：提交人类学科委员会审查的研究的命运。心理方法，2，447-452。

佛罗里达州施密特 (1996)。心理学中的统计显着性检验和累积知识：对研究人员培训的影响。心理方法，1，115-129。

格林沃尔德，AG（1975）。对零假设的偏见的后果。心理公报，82，1-20。

Berger, JO 和 Berry, DA (1988)。统计分析和客观性错觉。美国科学家，76，159-165。

第 14 周。复制和科学完整性

北卡罗来纳州史密斯 (1970)。复制研究：心理学研究的一个被忽视的方面。美国心理学家，25, 970-975。

Sohn, D. (1998)。统计意义和可复制性：为什么前者不预示后者。理论与心理学，8，291-311。

米尔，PE（1990）。为什么心理学理论研究的总结往往难以解释。心理报告，66，195-244。

小普拉特 (1964)。强推理。科学，146、347-353。

费曼，RL (1997)。你肯定是在开玩笑，费曼先生！纽约：WW 诺顿。（章节：货物崇拜科学）。

罗勒，LG (1991)。心理学中的一些科学神话。在 D. Cicchetti & WM Grove (eds.), Thinking Clearing about Psychology, vol. 1：公共利益问题，纪念 Paul E. Meehl 的论文（第 61 - 87 页）。明尼苏达州明尼阿波利斯：明尼苏达大学出版社。[选修的]

林赛，RM 和 Ehrenberg，ASC（1993 年）。重复研究的设计。美国统计学家，47，217-228。[选修的]

第 15 周。定量思维：为什么我们在心理科学中需要数学（而不是 NHST 本身）

Aiken, LS, West, SG, Sechrest, L., & Reno, RR (1990)。心理学统计、方法和测量的研究生培训：博士调查。在北美的节目。美国心理学家，45, 721-734。

Meehl，PE（1998 年，5 月）。定量思维的力量。在华盛顿特区的美国心理学会年会上作为 James McKeen Cattell 奖的获得者受邀致辞。

这些都是很好的参考。我在http://biostat.mc.vanderbilt.edu/wiki/pub/Main/FHHandouts/whyBayesian.pdf有一份可能有用的讲义

402 篇引文质疑在观察性研究中滥用零假设显着性检验： http ://warnercnr.colostate.edu/~anderson/thompson1.html

其它你可能感兴趣的问题

上一篇在制作模型之前，变量通常会被调整（例如标准化）——什么时候这是个好主意，什么时候是坏主意？下一篇R语言在经济学领域可靠吗？