从模型中删除一个无关紧要的因素会使模型变得更糟吗?

机器算法验证 统计学意义 特征选择 aic
2022-03-29 00:36:56

我构建了一个负二项式模型,用于检查另一个“juv_cneb_den”(偏移量=“Area_towed”)上的1个计数变量=“carid_den”的关系,以及一个位置因子=“区域”。

我的完整模型上的摘要命令表明该因子的所有级别在统计上都不显着(> 0.05)。然而,在放弃这个因素后,我得到了一个稍高的 AIC 值,我认为这意味着这个因素以某种方式使模型变得更好。如果因素不重要,为什么 AIC 值会下降?较低的 AIC 值不是表明模型更好吗?有直观的解释吗?

我的数据:

    > head(df)
           Zone TOTAL juv_cneb_count Area_towed
    1   Whipray     2              0   383.9854
    2      West    38              0   382.2256
    3 Crocodile    25              0   408.3697
    4    Rankin     2              0   422.1000
    5    Rankin     3              0   165.5196
    6      West     6              1   266.7000


> summary(nb_full)

Call:
glm.nb(formula = juv_cneb_count ~ TOTAL + Zone + offset(log(Area_towed)), 
    data = dat, init.theta = 0.2371440904, link = log)

Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-1.3378  -0.7787  -0.6540   0.0000   4.0603  

Coefficients:
              Estimate Std. Error z value Pr(>|z|)  
(Intercept) -3.930e+01  1.575e+06   0.000   1.0000  
TOTAL        1.946e-03  9.294e-04   2.094   0.0363 *
ZoneRankin   3.220e+01  1.575e+06   0.000   1.0000  
ZoneWest     3.282e+01  1.575e+06   0.000   1.0000  
ZoneWhipray  3.119e+01  1.575e+06   0.000   1.0000  
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

(Dispersion parameter for Negative Binomial(0.2371) family taken to be 1)

    Null deviance: 278.96  on 449  degrees of freedom
Residual deviance: 241.60  on 445  degrees of freedom
AIC: 751.89

Number of Fisher Scoring iterations: 1


              Theta:  0.2371 
          Std. Err.:  0.0407 

 2 x log-likelihood:  -739.8900


> summary(base)

Call:
glm.nb(formula = juv_cneb_count ~ TOTAL + offset(log(Area_towed)), 
    data = dat, init.theta = 0.1965321662, link = log)

Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-1.4967  -0.6980  -0.6810  -0.5667   4.1964  

Coefficients:
             Estimate Std. Error z value Pr(>|z|)    
(Intercept) -6.776742   0.135157 -50.140  < 2e-16 ***
TOTAL        0.003362   0.000984   3.416 0.000634 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

(Dispersion parameter for Negative Binomial(0.1965) family taken to be 1)

    Null deviance: 252.73  on 449  degrees of freedom
Residual deviance: 246.63  on 448  degrees of freedom
AIC: 775.16

Number of Fisher Scoring iterations: 1


              Theta:  0.1965 
          Std. Err.:  0.0329 

 2 x log-likelihood:  -769.1590 
2个回答

在这种情况下,您依靠错误的测试来确定 Zone 不重要。请注意,区域效应的系数很大(>30),标准误差很大。当估计值趋于无穷大时,当可能性保持单调增加时,就会发生这种情况。在这种情况下,为您提供 z 值和 p 值的 Wald 检验毫无用处。我认为正在发生的事情是鳄鱼区有 0 个事件,因此与它相比,其他区域的相对风险是无限的。

如果您要对 Zone 作为协变量进行似然比检验,您会发现它是显着的(事实上,您几乎是通过放弃效果并再次查看可能性来做到这一点的,您只是没有计算 p-值),所以你不想放弃它。

AIC 是模型 k 中的参数数量及其可能性 L 的函数。形式上,AIC = 2k - 2 ln(L)。由于 AIC 越小越好,所以 2k 项作为基于参数数量的惩罚。因此,AIC 代表了复杂性 (k) 和拟合 (L) 之间的权衡。想象两个具有相似可能性的模型,但一个模型具有 1000 个参数,另一个具有 2 个(极端示例)。通常首选具有 2 个参数的更简单模型(简约)。

在这种情况下,您有...

  • 模型 1:k = 5+1, 2 ln(L) = -739.89 => AIC1 = 12 + 739.89
  • 模型 2:k = 2+1, 2 ln(L) = -769.16 => AIC2 = 6 + 769.16

因此,即使您将模型减少了 3 个参数,初始模型的可能性或拟合也足以抵消参数损失,从而为较大的模型产生更好的 AIC。