机器算法验证 - 当数据量很大时，回归中的统计显着性发生了什么变化？ - 吾爱随笔录

当数据量很大时，回归中的统计显着性发生了什么变化？

机器算法验证回归统计学意义

2022-03-04 05:25:40

我正在阅读有关大规模回归（链接）的这个问题，其中whuber指出了一个有趣的点，如下所示：

“几乎你运行的任何统计测试都会非常强大，几乎可以肯定会识别出‘显着’效应。你必须更多地关注统计重要性，例如效应大小，而不是显着性。”

--- 呜呜

我想知道这是否可以证明，或者只是实践中的一些常见现象？

任何指向证明/讨论/模拟的指针都会非常有帮助。

3个回答

这很一般。

想象一下，有一个很小但非零的影响（即测试能够检测到的与零值的一些偏差）。

在小样本量下，拒绝的机会将非常接近 I 类错误率（噪声占主导地位的小影响）。

随着样本量的增加，估计效应应该收敛于总体效应，同时估计效应的不确定性会缩小（通常为），直到零情况与估计效应足够接近的机会在从总体中随机选择的样本中，它仍然是合理的，实际上减少到零。 $\sqrt{n}$

也就是说，对于零点，最终拒绝变得确定，因为在几乎所有实际情况下，基本上总是会与零点存在一定程度的偏差。

这不是一个证明，但在实践中不难证明样本量的影响。我想使用 Wilcox (2009) 中的一个简单示例，稍作改动：

想象一下，对于焦虑的一般测量，研究人员声称大学生群体的平均值至少为 50。作为对这一说法的检验，假设随机抽取 10 名大学生，目标是测试与。（威尔科克斯，2009：143） $H_0: \mu \geq 50$ $\alpha = .05$

我们可以使用 t 检验进行此分析：

T = \frac{\bar{X} - μ_{o}}{s / \sqrt{n}}

$T = \frac{\bar X - \mu_o}{s/\sqrt{n}}$

假设样本均值 ( ) 为 45，样本标准差 ( ) 为 11， $\bar X$ $s$

T = \frac{45 - 50}{11 / \sqrt{10}} = - 1.44.

$T = \frac{45-50}{11/\sqrt{10}}=-1.44.$

如果您查看包含个自由度分布的临界值的 $t$ $ν$ 表格，您将看到，。因此，对于，我们无法拒绝原假设。现在，假设我们有相同的样本均值和标准差，但有 100 个观测值： $v = 10 -1$ $P(T \leq - 1.83)= .05$ $T=-1.44$

T = \frac{45 - 50}{11 / \sqrt{100}} = - 4.55

$T = \frac{45-50}{11/\sqrt{100}}= -4.55$

对于 ,，我们可以拒绝原假设。保持其他一切不变，增加样本量将减小分母，并且您更有可能在采样分布的关键（拒绝）区域中获得值。请注意，是对均值标准误差的估计。因此，您可以看到类似的解释如何适用于例如线性回归中获得的回归系数的假设检验，其中。 $v = 100 - 1$ $P(T \leq -1.66) = .05$ $s/\sqrt{n}$ $T = \frac{\hat\beta_j-\beta_j^{(0)}}{se(\hat\beta_j)}$

Wilcox, RR, 2009。基本统计：了解传统方法和现代见解。牛津大学出版社，牛津。

在回归中，对于整体模型，测试在 F 上。这里

F = \frac{\frac{R S S_{1} - R S S_{2}}{p_{2} - p_{1}}}{\frac{R S S_{2}}{n - p_{2}}}

$F = \frac{\frac{RSS_1-RSS_2}{p_2 - p_1}}{\frac{RSS_2}{n-p_2}}$ 其中 RSS 是残差平方和，p 是参数的数量。但是，对于这个问题，关键是小分母中的 N。无论与有多接近，当 N 变大时，F 也会变大。因此，只需增加 N 直到 F 显着。

R S S_{1}

$RSS_1$

R S S_{2}

$RSS_2$

其它你可能感兴趣的问题

上一篇跨多个商店的数千种产品的产品需求预测下一篇过拟合是无监督学习中的一个问题吗？