我对随机过程(特别是非平稳信号的分析)有一定的了解,但除了是 R 的初学者之外,我以前从未使用过回归模型。好吧,当使用适合我的数据的 glm 模型的结果时,我对理解 R 中函数 summary() 的结果有一些疑问。好吧,假设我使用以下命令将广义线性模型拟合到我的数据:**
glm_model <- glm(Output ~ (Input1*Input2) + Input3 + Input4, data = mydata)
然后我使用 summary(glm_model) 获得以下内容:
Call:
glm(formula = Output ~ (Input1*Input2) + Input3 + Input4, data = mydata)
Deviance Residuals:
Min 1Q Median 3Q Max
-7.4583 -0.8985 0.1628 1.0670 6.0673
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 8.522e+00 6.553e-02 130.041 < 2e-16 ***
Input1 -3.819e-04 3.021e-05 -12.642 < 2e-16 ***
Input2 -2.557e-04 2.518e-05 -10.156 < 2e-16 ***
Input3 -3.202e-02 1.102e-02 -2.906 0.00367 **
Input4 -1.268e-01 7.608e-02 -1.666 0.09570 .
Input1:Input2 1.525e-08 2.521e-09 6.051 1.53e-09 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
(Dispersion parameter for gaussian family taken to be 2.487504)
Null deviance: 18544 on 5959 degrees of freedom
Residual deviance: 14811 on 5954 degrees of freedom
(1708 observations deleted due to missingness)
AIC: 22353
Number of Fisher Scoring iterations: 2
从估计理论的角度来看,我理解“估计”和“标准误差”是我模型的未知参数(beta1、beta2、...)的估计值和标准差。但是,有些事情我不明白:
我如何从 的输出中评估我的合身程度
summary()
?我们不能仅使用参数估计量的标准差信息来评估拟合优度。例如,我希望能够访问给定参数估计器的采样分布,以了解 +- 1std、+-0.5std 或任何 +-x*std 内的估计百分比。其他选择是知道参数估计器的理论分布,以便尝试计算其 Cramer Rao 下界并与计算的 std 进行比较。t 值(或 Pr(>|t|) )与拟合优度有什么关系?由于我不熟悉回归模型,因此我不知道学生 t 分布与模型参数估计之间的联系。这是什么意思?glm 模型的参数估计量是否根据学生 t pdf 分布(如未知总体小样本的样本估计量)?我应该从 Pr(>|t|) 中得出什么结论?
我们是否有更一般的形式来评估拟合优度,例如衡量我的模型可以捕获的数据的可变性,或者在给定一定的显着性水平的情况下,这种衡量标准的临界值表?**
在拟合 glm 模型时,我们是否需要指定显着性水平?如果是,为什么摘要功能没有提供这样的信息?
summary函数输出一些基于信息论的度量,比如AIC:22353。我们可以为AIC定义一个最优的参考值吗?什么是好的 AIC 值?我的直觉是我们不能这样做,就像其他信息论测量(互信息,熵,......)