你所做的是逻辑回归。这可以在基本上任何统计软件中完成,并且输出将是相似的(至少在内容上,尽管呈现方式可能不同)。在 UCLA 的优秀统计帮助网站上有使用 R 进行逻辑回归的指南。如果您对此不熟悉,我在这里的回答:logit and probit models 之间的区别,可能会帮助您了解 LR 的含义(尽管它是在不同的上下文中编写的)。
您似乎提供了两种模型,我将主要关注最上面的模型。另外,复制粘贴模型或输出时似乎出现了错误,所以我将在输出中进行交换leaves.presence
以Area
使其与模型一致。这是我所指的模型(请注意,我添加了 ;(link="logit")
隐含的family=binomial
; 请参阅?glm和?family):
glm(formula = leaves.presence ~ Area, family = binomial(link="logit"), data = n)
让我们看一下这个输出(请注意,我在第二行中更改了变量的名称Coefficients
):
Deviance Residuals:
Min 1Q Median 3Q Max
-1.213 -1.044 -1.023 1.312 1.344
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -0.3877697 0.0282178 -13.742 < 2e-16 ***
Area 0.0008166 0.0002472 3.303 0.000956 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 16662 on 12237 degrees of freedom
Residual deviance: 16651 on 12236 degrees of freedom
(314 observations deleted due to missingness)
AIC: 16655
Number of Fisher Scoring iterations: 4
正如线性 (OLS) 回归中存在残差一样,逻辑回归和其他广义线性模型中也可能存在残差。但是,当响应变量不连续时,它们会更加复杂。GLiM 可以有五种不同类型的残差,但列出的标准是偏差残差。(偏差和偏差残差更高级,所以我在这里简要介绍一下;如果这个讨论有点难以理解,我不会太担心,你可以跳过它):
Deviance Residuals:
Min 1Q Median 3Q Max
-1.213 -1.044 -1.023 1.312 1.344
对于模型中使用的每个数据点,都会计算与该点相关的偏差。为每个点完成此操作后,您就有了一组这样的残差,上面的输出只是它们分布的非参数描述。
接下来我们会看到关于协变量的信息,这是人们通常最感兴趣的:
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -0.3877697 0.0282178 -13.742 < 2e-16 ***
Area 0.0008166 0.0002472 3.303 0.000956 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
对于像这样的简单逻辑回归模型,只有一个协变量(Area
此处)和截距(有时也称为“常数”)。如果您有一个多元逻辑回归,则会在这些下方列出其他协变量,但输出的解释将是相同的。第二Estimate
行下方是与左侧列出的变量相关的系数。如果高一个单位,它是对数几率leaves.presence
将增加的估计量。何时为Area
的对数几率刚好在第一行的上方。(如果您对对数赔率不够熟悉,它可能会帮助您在这里阅读我的答案:逻辑回归中对赔率比的简单预测的解释leaves.presence
Area
0.) 在下一栏中,我们看到与这些估计相关的标准误差。也就是说,它们是对平均而言,如果研究以相同的方式重新运行,但使用新数据,这些估计会反弹多少,一遍又一遍。(如果您对标准误差的概念不是很熟悉,它可能会帮助您阅读我的答案:如何解释线性回归中的系数标准误差。)如果我们要将估计值除以标准误差,我们会得到一个假设为具有足够大样本的正态分布的商。该值列在下面z value
。下面Pr(>|z|)
列出了双尾p 值对应于标准正态分布中的那些 z 值。最后,还有传统的重要性星(并注意系数表下方的键)。
该Dispersion
行默认使用 GLiM 打印,但这里没有添加太多信息(例如,计数模型更重要)。我们可以忽略这一点。
最后,我们获得有关模型及其拟合优度的信息:
Null deviance: 16662 on 12237 degrees of freedom
Residual deviance: 16651 on 12236 degrees of freedom
(314 observations deleted due to missingness)
AIC: 16655
Number of Fisher Scoring iterations: 4
关于这一行missingness
经常,嗯,不见了。它显示在这里是因为您有 314 个观测值,其中一个leaves.presence
、Area
或两者都缺失。这些部分观察没有用于拟合模型。
Residual deviance
是衡量您的模型作为一个整体缺乏拟合的量度,而是Null deviance
仅包括截距的简化模型的量度。请注意,与这两者相关的自由度仅相差一个。由于您的模型只有一个协变量,因此只估计了一个额外的参数(Estimate
for Area
),因此只消耗了一个额外的自由度。这两个值可用于对模型进行整体检验,这类似于多元线性回归模型附带由于您只有一个协变量,因此在这种情况下,这样的测试将是无趣的。 F
AIC是另一种拟合优度的度量,它考虑了模型拟合数据的能力。这在比较两个模型时非常有用,其中一个模型可能更适合,但可能只是因为它更灵活,因此能够更好地拟合任何数据。由于您只有一个模型,因此这是无用的。
参考Fisher scoring iterations
与模型的估计方式有关。线性模型可以通过求解闭式方程来拟合。不幸的是,大多数 GLiM 都无法做到这一点,包括逻辑回归。相反,使用迭代方法(默认为Newton-Raphson 算法)。松散地,该模型是基于对估计值的猜测而拟合的。然后,该算法环顾四周,看看是否可以通过使用不同的估计来改进拟合。如果是这样,它会朝那个方向移动(例如,使用更高的估计值),然后再次拟合模型。当算法没有感知到再次移动会产生更多额外改进时,该算法就会停止。此行告诉您在进程停止并输出结果之前有多少次迭代。
关于您列出的第二个模型和输出,这只是显示结果的另一种方式。具体来说,这些
Coefficients:
(Intercept) Areal
-0.3877697 0.0008166
与上面讨论的估计相同(尽管来自不同的模型并且提供的补充信息较少)。