事实上,p 值现在也终于“过时”了: http: //www.nature.com/news/psychology-journal-bans-p-values-1.17001。零假设显着性检验 (NHST) 产生的只是对您的样本量的描述。(*) 任何实验干预都会产生一些影响,也就是说,“无影响”的简单零假设在严格意义上总是错误的. 因此,“非显着”测试仅意味着您的样本量不够大;“重要”测试意味着您收集了足够的数据来“发现”某些东西。
“影响大小”代表了通过引入问题的自然规模的措施来解决这一问题的尝试。在医学中,治疗总是有一些效果(即使它是安慰剂效应),引入“临床意义效应”的概念是为了防止“治疗”被发现具有“a(统计上)显着的积极影响”(无论多么微不足道)在一项任意大的研究中。
如果我了解您的工作性质,单簧管演奏家,那么归根结底,其合法目的是为改善您职权范围内学校教育的行动/干预措施提供信息。因此,您的设置是一种决策理论设置,贝叶斯方法是最合适的(并且是唯一一致的 [1])方法。
事实上,理解频率论方法的最佳方法是近似于贝叶斯方法。估计的效应大小可以理解为旨在衡量贝叶斯后验分布的中心性,而 p 值可以理解为旨在衡量该后验分布的一个尾部。因此,这两个量一起包含了贝叶斯后验的一些粗略要点,构成了对问题的决策理论观点的自然输入。(或者,效应大小的常客置信区间也可以理解为想要的可信区间。)
在心理学和教育领域,贝叶斯方法实际上相当流行。原因之一是很容易将“构造”安装到贝叶斯模型中,作为潜在变量。你可能想看看心理学家John K. Kruschke的“小狗书” 。在教育中(学生嵌套在教室中,嵌套在学校中,嵌套在学区中……),分层建模是不可避免的。贝叶斯模型也非常适合分层建模。在这个帐户上,您可能想查看 Gelman & Hill [2]。
[1]:Robert, Christian P. 贝叶斯选择:从决策理论基础到计算实现。第 2 版。Springer 统计中的文本。纽约:斯普林格,2007。
[2]:格尔曼、安德鲁和詹妮弗·希尔。使用回归和多级/分层模型的数据分析。社会研究的分析方法。剑桥; 纽约:剑桥大学出版社,2007 年。
更多关于“连贯性”的信息,请参阅 [3]。
[3]:罗宾斯、詹姆斯和拉里·瓦瑟曼。“条件、可能性和连贯性:一些基本概念的回顾。” 美国统计协会杂志 95,没有。452(2000 年 12 月 1 日):1340–46。doi:10.1080/01621459.2000.10474344。
(*) 在 [4] 中,Meehl 比我更优雅地鞭打 NHST,但同样粗暴:
由于原假设几乎总是错误的,因此根据“显着差异”模式总结研究的表格只不过是统计功效函数的复杂、因果无法解释的结果。
[4]: Meehl, Paul E. “理论风险和表格星号:卡尔爵士、罗纳德爵士和软心理学的缓慢进展。” 咨询与临床精神病学杂志 46 (1978): 806–34。http://www3.nd.edu/~ghaeffel/Meehl(1978).pdf
这是来自 Tukey 的相关引用:https ://stats.stackexchange.com/a/728/41404