机器算法验证 - 回归背景下的功效和样本量？ - 吾爱随笔录

简而言之，我的问题：

当我们对单个系数（可能是也可能不是虚拟/交互项）感兴趣时，当前在多元回归框架中进行功率分析的做法是什么？特别是，我如何计算所需的样本量？

冗长的版本：

当我们使用标准 t 检验检验简单均值的相等性时，相应的公式包含，这使得计算功效或求解给定在回归框架中，我有和，即系数的估计标准误差。在同方差的情况下，。如果包含一个常数，则将除以 $n$ $n$ $\hat\beta$ $\hat\sigma_\beta$ $\hat\sigma^2_\beta = \hat\sigma^2_\epsilon (X'X)^{-1}$ $X$ $n$ 涉及某处，所以这可以解决。然而，如果我们针对潜在的异方差或聚类调整方差-协方差矩阵，这似乎不太明显。围绕标准参考进行谷歌搜索似乎是 Cohen (1988)，甚至还有一个很好的R包pwr，它基于这个参考实现了几个功率计算。Cohen (1988) 的第 9 章以 F 检验为框架，回归框架中的功效根据确定。例如，效应大小 (" ") 定义为或，其中后者 $R^2$ $f^2$ $f^2 = \frac{R^2}{1-R^2}$ $f^2 = \frac{R_{AB}^2-R_{B}^2}{1-R_{B}^2}$ $A,B$ 表示不同的回归变量集，并且所有内容都根据解释的方差来构建。

我主要关心的是： 自 1988 年以来，至少在经济学和其他领域的统计实践发生了变化。据我所知，主要区别在于：首先，我们默认计算稳健或集群稳健的标准误差。这自然会夸大标准误差，这使得在标准 t 检验中拒绝空值变得更加困难。其次，在小样本中，我们通常担心分布假设及其违规。第三，许多人现在使用准实验方法，其中解释的方差或值通常很小，而通常接近于零。 $R^2$ $R_{AB}^2-R_{B}^2$

我想这对功率分析和确定所需样本量有影响。我认为这是一个方法论上非常有趣且也很重要的问题。我想知道最新的人会做什么，这就是我开始赏金的原因。

问题说明：

假设您运行了以下回归：

library(sandwich)
library(lmtest)
mod <- lm(mpg ~ disp + drat + wt*qsec, data=mtcars)
coeftest(mod, vcov. = vcovHC(mod))

t test of coefficients:

               Estimate  Std. Error t value Pr(>|t|)
(Intercept) -13.3238114  51.2643074 -0.2599   0.7970
disp          0.0026224   0.0113389  0.2313   0.8189
drat          1.5662444   1.4498325  1.0803   0.2899
wt            3.1612129  16.6582389  0.1898   0.8510
qsec          2.3617536   2.8229593  0.8366   0.4104
wt:qsec      -0.4402128   0.8979944 -0.4902   0.6281

例如，您会看到系数wt:qsec微不足道，但假设您有一个强大的先验知识，它会很重要。想象一下，您想知道是否真的没有效果，或者样本量是否太小。我们如何计算该检验的功效，或者，相应地，我们如何计算检测类似大小的效应所需的样本量？

重要的是，请注意，上述回归中的标准误差是使用对未知形式的异方差具有鲁棒性的方差-协方差矩阵计算的，这反映了当今许多社会科学领域的标准实践。这与同方差标准误差明显不同。您可以运行summary(mod)自己来验证这一点。