什么是效果大小......为什么它甚至有用?

机器算法验证 规模效应 群体差异
2022-01-26 01:05:12

我有入门级的研究生水平的统计学背景(假设我在本科阶段就知道数理统计和概率(例如,Wackerly 等人,Ross 的概率),并且有一些测度论知识)。

我最近开始从事教育统计方面的实验设计和统计报告工作,并被分配到一个项目中,我基本上是在评估学校的问责制指标,并且必须分析数据,提出更改等。请注意,我是唯一的我系的一位具有数理统计背景的人。

在我看来,人们强烈建议使用效果大小来衡量项目的有效性。我唯一一次听说过效应量是从我的朋友那里听说的,他学习心理学。我的印象是

Effect Size=Difference of MeansStandard Deviation.

与传统的假设检验相比,这个指标有什么用处,我为什么要关心它?对我来说,它看起来只不过是两个样本检验的检验统计量。除了可能把所有东西都放在同一个尺度上(这就是为什么有人真正“规范化”任何东西)之外,我根本不认为这很有用,但我认为测试统计数据(这对我来说是效果大小)已经过时了, 和值是首选。tp

4个回答

这是衡量效果大小的一种方法,但还有许多其他方法。这当然不是检验统计量您测量效果大小的方法通常称为 Cohen's(严格来说,只有当 SD 是通过 MLE 估计时才是正确的——即,没有Bessel 校正);更一般地说,它被称为“标准化平均差”。也许这会更清楚 : 即“tdtd

d=x¯2x¯1SDt=x¯2x¯1SEt=x¯2x¯1SDN
/N"在标准化平均差的公式中缺失。

更一般地说,从值中提取样本量可以提供真实的信息。假设真正的效果不完全是 到无限小数位,您可以通过足够的来实现您可能喜欢的任何显着性级别。值提供了关于我们在拒绝原假设方面的信心程度的信息,但通过将影响的大小与您拥有的数据量混为一谈来做到这一点很高兴知道我们是否应该拒绝原假设,但也很高兴知道您的教育干预的效果是否为学童带来了巨大的收益,或者是微不足道的,并且仅由于大而显着。 0NpN

我希望具有更相关领域(例如心理学或教育)背景的人会提出更好的答案,但我会试一试。

效果大小”是一个具有多个含义的术语——多年前它导致了一些混乱的对话,直到我最终意识到这一点。在这里,我们显然在处理按标准差缩放的版本(“改变了多少标准差?”)

在它们常见的主题领域中查看这种“效果大小”的部分原因是它们经常具有变量,其特定值并不具有内在意义,而是被构造为试图衡量一些难以获得的潜在事物在。

例如,假设您正在尝试衡量工作满意度(例如,对于将其与一组自变量相关联的模型,可能包括一些感兴趣的处理)。您没有任何方法可以直接了解它,但您可以(例如)尝试构建一些问卷来了解它的不同方面,也许使用像李克特量表这样的东西。

不同的研究人员可能有不同的方法来测量工作满意度,因此您的两组“满意度”测量值不能直接比较——但如果它们具有各种形式的有效性等等,那么这些东西就会被检查(这样他们可能合理地衡量满意度),那么他们可能希望具有非常相似的效果大小;至少效果大小将更接近可比。

上面的公式是您如何计算相关样本的 Cohen's d(这可能是您所拥有的?),如果它们不相关,您可以使用合并方差。有不同的统计数据可以告诉您有关效果大小的信息,但 Cohen 的 d 是一个标准化度量,可以在 0 到 3 之间变化。如果您有很多不同的变量,那么在您考虑时最好有一个标准化的度量他们都在一起。另一方面,许多人更喜欢根据被测量的单位来理解效应大小。 既然已经有了 p 值,为什么还要计算 d? 这是我目前正在使用的数据集的一个示例。我正在研究在学校进行的行为干预,使用经过验证的心理问卷(产生李克特数据)进行测量。几乎我所有的变量都显示出统计学上的显着变化,这可能并不令人惊讶,因为我有一个大样本(n=~250)。然而,对于某些变量,Cohen 的d是非常微小的,比如说 0.12,这表明虽然肯定会发生变化,但它可能不是临床上重要的变化,因此对于讨论和解释数据中发生的事情很重要。这个概念广泛用于心理学和健康科学,从业者(或学校,在你的情况下)需要考虑治疗的实际临床效用(或他们正在试验的任何东西)。Cohen 的d帮助我们回答有关其是否真的值得进行干预的问题(无论 p 值如何)。在医学科学中,他们也喜欢考虑NNT,并根据相关疾病的严重程度对其进行评估。看看来自@krstoffr http://rpsychologist.com/d3/cohend/的这个很棒的资源

事实上,p 值​​现在也终于“过时”了: http: //www.nature.com/news/psychology-journal-bans-p-values-1.17001零假设显着性检验 (NHST) 产生的只是对您的样本量的描述。(*) 任何实验干预都会产生一些影响,也就是说,“无影响”的简单零假设在严格意义上总是错误的. 因此,“非显着”测试仅意味着您的样本量不够大;“重要”测试意味着您收集了足够的数据来“发现”某些东西。

“影响大小”代表了通过引入问题的自然规模的措施来解决这一问题的尝试。在医学中,治疗总是有一些效果(即使它是安慰剂效应),引入“临床意义效应”的概念是为了防止“治疗”被发现具有“a(统计上)显着的积极影响”(无论多么微不足道)在一项任意大的研究中。

如果我了解您的工作性质,单簧管演奏家,那么归根结底,其合法目的是为改善您职权范围内学校教育的行动/干预措施提供信息。因此,您的设置是一种决策理论设置,贝叶斯方法是最合适的(并且是唯一一致的 [1])方法。

事实上,理解频率论方法的最佳方法是近似于贝叶斯方法估计的效应大小可以理解为旨在衡量贝叶斯后验分布的中心性,而 p 值可以理解为旨在衡量该后验分布的一个尾部。因此,这两个量一起包含了贝叶斯后验的一些粗略要点,构成了对问题的决策理论观点的自然输入。(或者,效应大小的常客置信区间也可以理解为想要的可信区间。)

在心理学和教育领域,贝叶斯方法实际上相当流行。原因之一是很容易将“构造”安装到贝叶斯模型中,作为潜在变量。你可能想看看心理学家John K. Kruschke的“小狗书” 。在教育中(学生嵌套在教室中,嵌套在学校中,嵌套在学区中……),分层建模是不可避免的。贝叶斯模型也非常适合分层建模。在这个帐户上,您可能想查看 Gelman & Hill [2]。

[1]:Robert, Christian P. 贝叶斯选择:从决策理论基础到计算实现。第 2 版。Springer 统计中的文本。纽约:斯普林格,2007。

[2]:格尔曼、安德鲁和詹妮弗·希尔。使用回归和多级/分层模型的数据分析。社会研究的分析方法。剑桥; 纽约:剑桥大学出版社,2007 年。


更多关于“连贯性”的信息请参阅 [3]。

[3]:罗宾斯、詹姆斯和拉里·瓦瑟曼。“条件、可能性和连贯性:一些基本概念的回顾。” 美国统计协会杂志 95,没有。452(2000 年 12 月 1 日):1340–46。doi:10.1080/01621459.2000.10474344。

(*) 在 [4] 中,Meehl 比我更优雅地鞭打 NHST,但同样粗暴:

由于原假设几乎总是错误的,因此根据“显着差异”模式总结研究的表格只不过是统计功效函数的复杂、因果无法解释的结果。

[4]: Meehl, Paul E. “理论风险和表格星号:卡尔爵士、罗纳德爵士和软心理学的缓慢进展。” 咨询与临床精神病学杂志 46 (1978): 806–34。http://www3.nd.edu/~ghaeffel/Meehl(1978).pdf


这是来自 Tukey 的相关引用:https ://stats.stackexchange.com/a/728/41404