我有一个包含样本和变量观察的线性回归模型,我想知道:
- 特定变量是否足够重要以保持包含在模型中。
- 模型中是否应该包含另一个变量(带有观察值)。
哪些统计数据可以帮助我?如何才能最有效地获得它们?
我有一个包含样本和变量观察的线性回归模型,我想知道:
哪些统计数据可以帮助我?如何才能最有效地获得它们?
统计显着性通常不是确定变量是否应包含在模型中的良好基础。统计测试旨在测试假设,而不是选择变量。我知道很多教科书都在讨论使用统计测试进行变量选择,但这通常是一种不好的方法。请参阅 Harrell 的书Regression Modeling Strategies了解其中的一些原因。如今,通常首选基于 AIC(或类似的东西)的变量选择。
我赞同 Rob 的评论。一个越来越受欢迎的替代方法是包含所有变量并将它们缩小到 0。参见 Tibshirani, R. (1996)。通过套索进行回归收缩和选择。
对于第 1 部分,您正在寻找F-test。计算每个模型拟合的残差平方和并计算 F 统计量,您可以使用它从 F 分布或您自己生成的其他一些空分布中找到 p 值。
对 Rob 的回答再投一票。
在“相对重要性”文献中也有一些有趣的想法。这项工作开发了一些方法,旨在确定与多个候选预测变量中的每一个相关联的重要性。有贝叶斯方法和频率方法。检查 R 中的“relaimpo”包以获取引用和代码。