机器算法验证 - 回归中逐步变量选择的危险 - 吾爱随笔录

本文讨论了使用逐步变量选择程序的一些危险：

http://www.auburn.edu/~tds0009/Articles/Whittingham%20et%20al.%202006.pdf

我很难理解图 1b。作者根据模型生成数据。 = 10 的数据集并拟合线性模型。图 1a 显示了这些线性模型估计的斜率分布。通过针对零斜率测试每个估计的斜率，实施了变量选择程序。如果测试不显着，则丢弃斜率。图 1b 显示了根据变量选择程序得到的斜率分布。 $y = 0.5x + e$ $n$

这是我不明白的……我本以为实际上为零或非常接近于零的任何估计贝塔值都会被丢弃，因为它们在 t 检验中是微不足道的。我本来预计任何接近 -1 或大约 0.5 及以上的估计 beta 都会被保留。因此，我预计图 1b 将在零标记（丢弃 beta 的位置）附近有一个间隙，并且保留所有其他 beta。对我来说奇怪的是，实际上为零的 beta 被保留了，而其他大多数都被丢弃了。

有人想解释一下图 1b 中 beta 的分布，以及为什么这些 beta 被保留了吗？