回归中逐步变量选择的危险

机器算法验证 回归 逐步回归
2022-04-13 02:06:54

本文讨论了使用逐步变量选择程序的一些危险:

http://www.auburn.edu/~tds0009/Articles/Whittingham%20et%20al.%202006.pdf

我很难理解图 1b。作者根据模型生成数据。 = 10 的数据集并拟合线性模型。图 1a 显示了这些线性模型估计的斜率分布。通过针对零斜率测试每个估计的斜率,实施了变量选择程序。如果测试不显着,则丢弃斜率。图 1b 显示了根据变量选择程序得到的斜率分布。y=0.5x+en

这是我不明白的……我本以为实际上为零或非常接近于零的任何估计贝塔值都会被丢弃,因为它们在 t 检验中是微不足道的。我本来预计任何接近 -1 或大约 0.5 及以上的估计 beta 都会被保留。因此,我预计图 1b 将在零标记(丢弃 beta 的位置)附近有一个间隙,并且保留所有其他 beta。对我来说奇怪的是,实际上为零的 beta 被保留了,而其他大多数都被丢弃了。

有人想解释一下图 1b 中 beta 的分布,以及为什么这些 beta 被保留了吗?

1个回答

该图显示了估计斜率参数在所有模型中的分布,而不仅仅是那些显着不同于零的模型。零处的尖峰代表斜率被认为不显着的所有模型,因此使用了零斜率模型。关键是要证明变量选择过程会导致对的估计为零(因此太低)或非常大(因为较大的估计“更重要”)。β