我正在尝试解释模型选择的 p 值。这是取自一本书的示例代码(An Intro. to stat. Learning, page 290, by Gareth James et al.)
 零假设:模型M1足以解释数据与替代假设相反,即需要更复杂的模型M2。
有了这个陈述,我认为 p 值应该很高,以便可以拒绝零假设并M2选择模型。牢记这一点,我认为我们应该选择模型 5,因为它具有最高的 p 值,但作者提到模型 3 或模型 4 都非常合适。我不明白为什么 Model 5 不合适。
我正在尝试解释模型选择的 p 值。这是取自一本书的示例代码(An Intro. to stat. Learning, page 290, by Gareth James et al.)
 零假设:模型M1足以解释数据与替代假设相反,即需要更复杂的模型M2。
有了这个陈述,我认为 p 值应该很高,以便可以拒绝零假设并M2选择模型。牢记这一点,我认为我们应该选择模型 5,因为它具有最高的 p 值,但作者提到模型 3 或模型 4 都非常合适。我不明白为什么 Model 5 不合适。
要了解原因,我们应该尝试了解我们在这里所做的事情。
让我们从第一个 p 值开始:2e-16,这是什么意思?这是线性模型和第二多项式模型在统计上相同的零假设下的 p 值。如果多项式中的额外系数在统计上为零,我们说它们是相同的。这正是 p 值告诉你的。内容如下:There is 2e-16 probability that the null hypothesis of the linear model and the polynomial are identical. 这是一个非常小的概率,因此您可以得出结论,它们并不相同。这意味着,二阶多项式是比显着性水平为 5% 的线性模型更好的模型。
(PS:对 p 值的更正确的统计解释与误报拒绝有关,但我们不要深入探讨)
现在,使用相同的逻辑,您可以得出结论,三阶多项式比二阶多项式拟合得更好。
接下来,比较三阶和四阶多项式的 p 值约为 0.05。你可以拒绝它,或者你不想拒绝它,这取决于你。但如果是你,我根本不会拒绝它,因为它大于 0.05。
最后,最终的 p 值是关于0.37哪个太高。这意味着尽管五阶多项式比四阶拟合得更好,但您的 RSS 中的损失不足以证明自由度的损失是合理的。因此,我们说the fifth order polynomial is statistically no better than the fourth-order。
结论:拥有较大的 p 值是“不好的”,因为您真的想拒绝零假设。从统计学上讲,我们这样做是为了控制误报率。
PS:在您的示例中,R 使用 F 检验来比较两个模型。