常见的基于数据的变量选择程序(例如,向前、向后、逐步、所有子集)往往会产生具有不良属性的模型,包括:
- 系数偏离零。
- 标准误太小,置信区间太窄。
- 检验不具有宣传意义的统计量和 p 值。
- 模型拟合的估计过于乐观。
- 包含的可能无意义的术语(例如,排除低阶术语)。
然而,变量选择程序仍然存在。考虑到变量选择的问题,为什么这些程序是必要的?是什么促使他们使用?
开始讨论的一些建议......
- 对可解释回归系数的渴望?(在具有许多 IV 的模型中被误导?)
- 消除不相关变量引入的方差?
- 消除自变量之间不必要的协方差/冗余?
- 减少参数估计的数量(功率问题、样本量)
还有其他人吗?变量选择技术解决的问题比变量选择程序引入的问题更重要还是更不重要?什么时候应该使用它们?什么时候不应该使用它们?