解释 R 中的 drop1 输出

机器算法验证 r 回归 自习 逐步回归
2022-01-21 17:38:16

在 R 中,drop1命令输出一些简洁的东西。
这两个命令应该会给你一些输出:
example(step)#-> swiss
drop1(lm1, test="F")

我的看起来像这样:

> drop1(lm1, test="F")
Single term deletions

Model:
Fertility ~ Agriculture + Examination + Education + Catholic + 
    Infant.Mortality
                 Df Sum of Sq    RSS    AIC F value     Pr(F)    
<none>                        2105.0 190.69                      
Agriculture       1    307.72 2412.8 195.10  5.9934  0.018727 *  
Examination       1     53.03 2158.1 189.86  1.0328  0.315462    
Education         1   1162.56 3267.6 209.36 22.6432 2.431e-05 ***
Catholic          1    447.71 2552.8 197.75  8.7200  0.005190 ** 
Infant.Mortality  1    408.75 2513.8 197.03  7.9612  0.007336 ** 
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 

这一切意味着什么?我假设“星星”有助于决定要保留哪些输入变量。看上面的输出,我想扔掉“考试”变量,专注于“教育”变量,这样解释正确吗?

另外,AIC 值越低越好,是吗?

埃德。请注意下面的社区 Wiki 答案,如果您认为合适,请添加到其中,以澄清此输出。

2个回答

drop1为您提供基于 AIC 标准的模型比较,并在使用该选项test="F"时向其添加“类型 II ANOVA”,如帮助文件中所述只要您只有连续变量,该表就完全等同于 summary(lm1),因为 F 值就是那些 T 值的平方。P值完全相同。

那么该怎么办呢?以这种方式解释它:它以某种方式表示没有该术语的模型与具有该术语的模型“显着”不同。注意“显着”周围的“”,因为这里的含义不能像大多数人想象的那样解释。(多重测试问题和所有......)

关于AIC:越低越好看起来越像。AIC 是适用于模型的值,而不适用于变量。因此,该输出中的最佳模型将是没有变量检查的模型。

请注意,AIC 和 F 统计量的计算都与 R 函数不同AIC(lm1)anova(lm1). 因为AIC(),该信息在 的帮助页面上给出extractAIC()对于anova()功能,很明显I型和II型SS并不相同。

我尽量不要粗鲁,但是如果您不理解那里的帮助文件中的解释,那么您首先不应该使用该功能。逐步回归非常棘手,会以最深刻的方式危害您的 p 值。再说一遍,不要自己基于 p 值。你的模型应该反映你的假设,而不是相反。

作为参考,这些是包含在表中的值:
Df的是自由度,“自由度的数量是统计量的最终计算中可以自由变化的值的数量。”

Sum of Sq列是指平方和(或更准确地说是平方偏差之和)。简而言之,这是衡量每个单独值偏离这些值的总体平均值的量。
RSS残差平方和这些是衡量因(或输出)变量的预测值与集合中每个数据点(或更通俗地说:数据表中的每条“线”)的真实值的差异程度。

AICAkaike 信息标准,通常被认为“太复杂而无法解释”,但简而言之,它是估计统计模型拟合优度的度量。如果您需要更多详细信息,您将不得不转向带有文字的死树(即书籍)。或者维基百科和那里的资源。

F value用于执行所谓的F检验,并从中得出Pr(F)值,该值描述了 F 值的可能性(或 Probable = Pr)。接近零的 Pr(F) 值(***由确实如此。

在命令的上下文中drop1,计算所有这些值以将整个模型(包括所有输入变量)与通过在输出表中的每一行中删除一个特定变量而得到的模型进行比较。

现在,如果可以对此进行改进,请随时添加或澄清任何问题。我的目标只是澄清并提供从 R 命令的输出到它的实际含义的更好的“反向查找”参考。