多元回归最小样本量的经验法则

机器算法验证 回归 样本量 统计能力 经验法则
2022-02-10 23:58:25

在社会科学研究计划的背景下,我被问到以下问题:

在确定多元回归的最小样本量时,我总是增加 100 + m(其中 m 是预测变量的数量)。这合适吗?

我经常收到类似的问题,通常有不同的经验法则。我也在各种教科书中读过很多这样的经验法则。我有时想知道一条规则在引用方面的受欢迎程度是否基于标准的设定低。但是,我也意识到良好的启发式方法在简化决策方面的价值。

问题:

  • 在应用研究人员设计研究的背景下,简单的经验法则对于最小样本量的效用是什么?
  • 对于多元回归的最小样本量,您会建议另一种经验法则吗?
  • 或者,您会建议哪些替代策略来确定多元回归的最小样本量?特别是,如果将价值分配给非统计学家可以轻松应用任何策略的程度,那将是一件好事。
4个回答

我不喜欢生成最小样本量的简单公式。至少,任何公式都应该考虑效果大小和感兴趣的问题。并且截止值两侧之间的差异很小。

样本量作为优化问题

  • 更大的样本更好。
  • 样本量通常由务实的考虑决定。
  • 样本量应被视为优化问题中的一个考虑因素,在该问题中,获得更多参与者的时间、金钱、努力等成本与拥有更多参与者的收益相权衡。

粗略的经验法则

在涉及能力测试、态度量表、性格测量等的观察性心理学研究的典型背景下,根据非常粗略的经验法则,我有时会想到:

  • n=100 足够
  • n=200 一样好
  • n=400+ 一样好

这些经验法则基于与这些各自级别的相关性相关的 95% 置信区间以及我想从理论上理解感兴趣的关系的精确度。但是,这只是一种启发式方法。

G 力量 3

多重回归检验多个假设

  • 任何功效分析问题都需要考虑效应大小。
  • 多重回归的功效分析变得更加复杂,因为存在多种影响,包括整体 r 平方和每个单独系数的影响。此外,大多数研究包括不止一个多元回归。对我来说,这是更多地依赖一般启发式方法并考虑您想要检测的最小效应大小的进一步原因。

  • 关于多元回归,我通常会更多地考虑估计潜在相关矩阵的精确度。

参数估计的准确性

我也喜欢 Ken Kelley 及其同事对参数估计精度的讨论。

  • 有关出版物,请参见Ken Kelley 的网站
  • 正如@Dmitrij 所提到的,Kelley 和 Maxwell (2003)免费 PDF有一篇有用的文章。
  • Ken KelleyMBESS在 R 中开发了该软件包,以执行将样本大小与参数估计精度相关的分析。

我不喜欢将其视为电源问题,而是提出问题“应该有多大,以便可以信任一种解决方法是考虑之间的比率或差异,后者是给出并形成对“真实”的更无偏估计。nR2R2Radj2R21(1R2)n1np1R2

一些 R 代码可用于求解的因数,即应使仅是比或仅小的因数pn1Radj2kR2k

require(Hmisc)
dop <- function(k, type) {
  z <- list()
  R2 <- seq(.01, .99, by=.01)
  for(a in k) z[[as.character(a)]] <-
    list(R2=R2, pfact=if(type=='relative') ((1/R2) - a) / (1 - a) else
         (1 - R2 + a) /  a)
  labcurve(z, pl=TRUE, ylim=c(0,100), adj=0, offset=3,
           xlab=expression(R^2), ylab=expression(paste('Multiple of ',p)))
}
par(mfrow=c(1,2))
dop(c(.9, .95, .975), 'relative')
dop(c(.075, .05, .04, .025, .02, .01), 'absolute')

在此处输入图像描述 图例:通过指定的相对因子(左图,3 个因子)或绝对差异(右图, 6 减量)。R2R2Radj2

如果有人看到这已经在印刷,请告诉我。

(+1)在我看来确实是一个至关重要的问题。

与微观、金融或社会学实验相比,宏观计量经济学的样本量通常要小得多。研究人员在可以提供至少可行的估计时感觉很好。我个人最不可能的经验法则是4m(4一个估计参数的自由度)。在其他应用研究领域中,您通常对数据更幸运(如果不是太昂贵,只需收集更多数据点),您可能会问样本的最佳大小是多少(不仅仅是最小值)。后一个问题来自这样一个事实,即更多的低质量(嘈杂)数据并不比较小的高质量样本更好。

大多数样本量都与您在拟合多元回归模型后要检验的假设的检验功效相关联。

有一个很好的计算器,可以用于多个回归模型和幕后的一些公式。我认为这样的先验计算器可以很容易地被非统计学家应用。

可能 K.Kelley 和 SEMaxwell 的文章可能有助于回答其他问题,但我首先需要更多时间来研究这个问题。

你的经验法则不是特别好,如果m很大。m=500: 你的规则说它适合500变量只有600观察。我几乎不这么认为!

对于多元回归,您有一些理论可以建议最小样本量。如果您要使用普通的最小二乘法,那么您需要的假设之一是“真实残差”是独立的。现在,当您将最小二乘模型拟合到m变量,你在强加m+1经验残差的线性约束(由最小二乘或“正态”方程给出)。这意味着经验残差不是独立的——一旦我们知道nm1其中,剩下的m+1可以推导出来,其中n是样本量。所以我们违反了这个假设。现在依赖的顺序是O(m+1n). 因此,如果您选择n=k(m+1)对于一些数字k,则顺序由下式给出O(1k). 所以通过选择k,你正在选择你愿意容忍多少依赖。我选择k与应用“中心极限定理”的方式大致相同 -1020很好,我们有“统计数据”规则30(即统计学家的计数系统是1,2,,26,27,28,29,)。