本文讨论了使用逐步变量选择程序的一些危险:
http://www.auburn.edu/~tds0009/Articles/Whittingham%20et%20al.%202006.pdf
我很难理解图 1b。作者根据模型生成数据。 = 10 的数据集并拟合线性模型。图 1a 显示了这些线性模型估计的斜率分布。通过针对零斜率测试每个估计的斜率,实施了变量选择程序。如果测试不显着,则丢弃斜率。图 1b 显示了根据变量选择程序得到的斜率分布。
这是我不明白的……我本以为实际上为零或非常接近于零的任何估计贝塔值都会被丢弃,因为它们在 t 检验中是微不足道的。我本来预计任何接近 -1 或大约 0.5 及以上的估计 beta 都会被保留。因此,我预计图 1b 将在零标记(丢弃 beta 的位置)附近有一个间隙,并且保留所有其他 beta。对我来说奇怪的是,实际上为零的 beta 被保留了,而其他大多数都被丢弃了。
有人想解释一下图 1b 中 beta 的分布,以及为什么这些 beta 被保留了吗?