多元线性回归的样本量

机器算法验证 回归 采样
2022-03-24 19:37:34

我有两个问题:

我想知道如果我希望测试足够强大,是否可以知道多元线性回归的样本大小(n)?对我来说,在现实中使用多重线性模型的功率计算似乎非常困难,因为需要为不同的参数输入有效值。可以用 R 做到这一点吗?如果是,我怎么能用 R 做到这一点?R代码?

使用 R,有这个用于多元线性回归的代码:

pwr.f2.test(u = NULL, v = NULL, f2 = NULL, sig.level = 0.05, power = NULL)

其中:
u:分子的自由度
v:分母的自由度
f2:效应大小
sig.level:显着性水平(I 类错误概率)
power:检验功效(1 减去 II 类错误概率)

  1. 是否可以改进此 R 代码以考虑(考虑)样本(n)的大小和回归的不同参数?
  2. 逻辑回归(logit 回归)的样本大小(n)如何?是否有可能知道一些标准(例如(sig.level=0.05,power=0.8…))来了解采样的大小?
2个回答

多元回归的功效分析非常复杂,因为有许多移动部件,并且可能有几个不同的感兴趣的测试。函数pwr.f2.test基于 Cohen 的书Statistical Power Analysis for the Behavioral Sciences,您可以在那里找到详细的解释和许多示例。

最重要的见解是样本大小已经被系数v(分母的自由度)捕获。具体如何取决于模型的细节。因此,分析已经将其考虑在内。

或者,进行功率分析的另一种方法是使用仿真。这种设置特别有吸引力,因为您可以玩设计的各个方面。有关这方面的更多信息,请参阅计算统计功效(另请参阅G. Jay Kern 的帖子)。

一旦掌握了窍门,将模拟方法扩展到许多其他测试也很容易。对于逻辑回归,我不确定pwr包中是否有任何特定功能,但 G*Power 中有一个。我不记得曾经使用过它,所以我无法对这部分问题发表进一步评论。

我见过的逻辑回归的最佳功效处理方法是在 Breslow 和 Day 的“癌症研究中的统计方法”的第 2 卷中。出发点是要认识到最简单的情况是二项式检验,方差取决于 N 和通过 var(t) = N*p*(1-p) 的情况比例。相当令人高兴的是,出版商现在可以在线获取这两卷的全部内容,并且“设计注意事项”一章位于我嵌入的链接中。见第 5.6 节