当数据量很大时,回归中的统计显着性发生了什么变化?
机器算法验证
回归
统计学意义
2022-03-04 05:25:40
3个回答
这很一般。
想象一下,有一个很小但非零的影响(即测试能够检测到的与零值的一些偏差)。
在小样本量下,拒绝的机会将非常接近 I 类错误率(噪声占主导地位的小影响)。
随着样本量的增加,估计效应应该收敛于总体效应,同时估计效应的不确定性会缩小(通常为),直到零情况与估计效应足够接近的机会在从总体中随机选择的样本中,它仍然是合理的,实际上减少到零。
也就是说,对于零点,最终拒绝变得确定,因为在几乎所有实际情况下,基本上总是会与零点存在一定程度的偏差。
这不是一个证明,但在实践中不难证明样本量的影响。我想使用 Wilcox (2009) 中的一个简单示例,稍作改动:
想象一下,对于焦虑的一般测量,研究人员声称大学生群体的平均值至少为 50。作为对这一说法的检验,假设随机抽取 10 名大学生,目标是测试与。(威尔科克斯,2009:143)
我们可以使用 t 检验进行此分析:
假设样本均值 ( ) 为 45,样本标准差 ( ) 为 11,
如果您查看包含个自由度分布的临界值的表格,您将看到,。因此,对于,我们无法拒绝原假设。现在,假设我们有相同的样本均值和标准差,但有 100 个观测值:
对于 ,,我们可以拒绝原假设。保持其他一切不变,增加样本量将减小分母,并且您更有可能在采样分布的关键(拒绝)区域中获得值。请注意,是对均值标准误差的估计。因此,您可以看到类似的解释如何适用于例如线性回归中获得的回归系数的假设检验,其中。
Wilcox, RR, 2009。基本统计:了解传统方法和现代见解。牛津大学出版社,牛津。
在回归中,对于整体模型,测试在 F 上。这里
其中 RSS 是残差平方和,p 是参数的数量。但是,对于这个问题,关键是小分母中的 N。无论与有多接近,当 N 变大时,F 也会变大。因此,只需增加 N 直到 F 显着。
其它你可能感兴趣的问题