回归背景下的功效和样本量?

机器算法验证 r 假设检验 多重回归 样本量 统计能力
2022-03-14 04:44:43

简而言之,我的问题:

当我们对单个系数(可能是也可能不是虚拟/交互项)感兴趣时,当前在多元回归框架中进行功率分析的做法是什么?特别是,我如何计算所需的样本量?

冗长的版本:

当我们使用标准 t 检验检验简单均值的相等性时,相应的公式包含,这使得计算功效或求解给定在回归框架中,我有,即系数的估计标准误差。在同方差的情况下,如果包含一个常数,则将除以nnβ^σ^βσ^β2=σ^ϵ2(XX)1Xn涉及某处,所以这可以解决。然而,如果我们针对潜在的异方差或聚类调整方差-协方差矩阵,这似乎不太明显。围绕标准参考进行谷歌搜索似乎是 Cohen (1988),甚至还有一个很好的Rpwr,它基于这个参考实现了几个功率计算。Cohen (1988) 的第 9 章以 F 检验为框架,回归框架中的功效根据确定。例如,效应大小 (" ") 定义为,其中后者R2f2f2=R21R2f2=RAB2RB21RB2A,B表示不同的回归变量集,并且所有内容都根据解释的方差来构建。

我主要关心的是: 自 1988 年以来,至少在经济学和其他领域的统计实践发生了变化。据我所知,主要区别在于:首先,我们默认计算稳健或集群稳健的标准误差。这自然会夸大标准误差,这使得在标准 t 检验中拒绝空值变得更加困难。其次,在小样本中,我们通常担心分布假设及其违规。第三,许多人现在使用准实验方法,其中解释的方差或值通常很小,而通常接近于零。R2RAB2RB2

我想这对功率分析和确定所需样本量有影响。我认为这是一个方法论上非常有趣且也很重要的问题。我想知道最新的人会做什么,这就是我开始赏金的原因。

问题说明:

假设您运行了以下回归:

library(sandwich)
library(lmtest)
mod <- lm(mpg ~ disp + drat + wt*qsec, data=mtcars)
coeftest(mod, vcov. = vcovHC(mod))

t test of coefficients:

               Estimate  Std. Error t value Pr(>|t|)
(Intercept) -13.3238114  51.2643074 -0.2599   0.7970
disp          0.0026224   0.0113389  0.2313   0.8189
drat          1.5662444   1.4498325  1.0803   0.2899
wt            3.1612129  16.6582389  0.1898   0.8510
qsec          2.3617536   2.8229593  0.8366   0.4104
wt:qsec      -0.4402128   0.8979944 -0.4902   0.6281

例如,您会看到系数wt:qsec微不足道,但假设您有一个强大的先验知识,它会很重要。想象一下,您想知道是否真的没有效果,或者样本量是否太小。我们如何计算该检验的功效,或者,相应地,我们如何计算检测类似大小的效应所需的样本量?

重要的是,请注意,上述回归中的标准误差是使用对未知形式的异方差具有鲁棒性的方差-协方差矩阵计算的,这反映了当今许多社会科学领域的标准实践。这与同方差标准误差明显不同。您可以运行summary(mod)自己来验证这一点。

1个回答

功率分析有两种主要方法:

当您的设计在使用的估计器和分布假设方面符合“经典标准”时,来自 Cohen 的公式(其中大多数比该参考文献更早)在数学上是正确的,可以证明是正确的。

当您的设计开始偏离这些标准时,无论是因为您使用非标准估算器(无论出于何种原因),还是因为您的数据生成或选择过程存在其他问题,理论通常很快就会崩溃。虽然确实存在一些非常接近经典范式的公式,但通常的方法是模拟。如果您认为您的影响具有一定程度的影响,那么模拟给定样本大小的 10000 个数据集,具有这种影响程度。将您选择的估算器应用于每个数据集,并查看有多少返回显着结果。然后,调整样本量以满足您的需要(如果没有足够的重复显着,您应该增加样本量。如果比需要的更多显着,您可以减少它。)