逻辑回归和分数响应回归有什么区别?

机器算法验证 r 回归 物流 广义线性模型 准可能性
2022-02-01 12:03:47

据我所知,logistic模型和分数响应模型(frm)的区别在于frm为[0,1],而logistic为{0, 1}的因变量(Y)。此外,frm 使用准似然估计器来确定其参数。

通常,我们可以通过glm来获取逻辑模型glm(y ~ x1+x2, data = dat, family = binomial(logit))

对于 frm,我们更改family = binomial(logit)family = quasibinomial(logit)

我注意到我们也可以family = binomial(logit)用来获取 frm 的参数,因为它给出了相同的估计值。请参阅以下示例

    library(foreign)
    mydata <- read.dta("k401.dta")

    glm.bin <- glm(prate ~ mrate + age + sole + totemp, 
                   data = mydata, family = binomial('logit'))
    summary(glm.bin)

返回:

    Call:
    glm(formula = prate ~ mrate + age + sole + totemp, 
        family = binomial("logit"), 
        data = mydata)
    
    Deviance Residuals: 
        Min       1Q   Median       3Q      Max  
    -3.1214  -0.1979   0.2059   0.4486   0.9146  
    
    Coefficients:
                  Estimate Std. Error z value Pr(>|z|)    
    (Intercept)  1.074e+00  8.869e-02  12.110  < 2e-16 ***
    mrate        5.734e-01  9.011e-02   6.364 1.97e-10 ***
    age          3.089e-02  5.832e-03   5.297 1.17e-07 ***
    sole         3.636e-01  9.491e-02   3.831 0.000128 ***
    totemp      -5.780e-06  2.207e-06  -2.619 0.008814 ** 
    ---
    Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
    
    (Dispersion parameter for binomial family taken to be 1)
    
        Null deviance: 1166.6  on 4733  degrees of freedom
    Residual deviance: 1023.7  on 4729  degrees of freedom
    AIC: 1997.6
    
    Number of Fisher Scoring iterations: 6 

对于family = quasibinomial('logit')

    glm.quasi <- glm(prate ~ mrate + age + sole + totemp, 
     data = mydata
    ,family = quasibinomial('logit'))
    summary(glm.quasi)

返回:

    Call:
    glm(formula = prate ~ mrate + age + sole + totemp, 
        family = quasibinomial("logit"), 
        data = mydata)
    
    Deviance Residuals: 
        Min       1Q   Median       3Q      Max  
    -3.1214  -0.1979   0.2059   0.4486   0.9146  
    
    Coefficients:
                  Estimate Std. Error t value Pr(>|t|)    
    (Intercept)  1.074e+00  4.788e-02  22.435  < 2e-16 ***
    mrate        5.734e-01  4.864e-02  11.789  < 2e-16 ***
    age          3.089e-02  3.148e-03   9.814  < 2e-16 ***
    sole         3.636e-01  5.123e-02   7.097 1.46e-12 ***
    totemp      -5.780e-06  1.191e-06  -4.852 1.26e-06 ***
    ---
    Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
    
    (Dispersion parameter for quasibinomial family taken to be 0.2913876)
    
        Null deviance: 1166.6  on 4733  degrees of freedom
    Residual deviance: 1023.7  on 4729  degrees of freedom
    AIC: NA
    
    Number of Fisher Scoring iterations: 6

两者的估计 Betafamily值相同,但不同的是 SE 值。但是,要获得正确的 SE,我们必须使用library(sandwich)as in this post

现在,我的问题:

  1. 这两个代码有什么区别?
  2. frm 即将获得稳健的 SE 吗?

如果我的理解不正确,请提出一些建议。

1个回答

如果您的问题是:这两个代码有什么区别?

一看?glm就说See family for details of family functions,一看就?family知道下面的描述:

拟二项式和拟泊松族与二项式和泊松族的不同之处仅在于色散参数不固定为 1,因此它们可以模拟过度色散。

这也是您在输出中看到的内容。这就是两种型号/代码之间的区别。

如果您的问题是:逻辑回归和分数响应回归之间有什么区别?

正如您正确识别的那样,如果您的因变量为 0 或 1,则该模型是一个逻辑模型。Papke 和 Wooldridge已经表明,您可以将这种形式的 GLM 用于分数以及参数估计,但您需要计算稳健的标准误差。这不是逻辑回归所必需的,事实上,有些人认为您不应该在 probit/logit 模型中计算稳健的标准误差。虽然这是一场不同的辩论。

理论基础来自Gourieroux、Monfort 和 Trognon的著名论文在 1984 年的计量经济学中。他们表明(在某些规律性条件下等)通过最大化属于线性指数族的似然性获得的最大似然性参数是对属于线性指数族中任何其他似然性的参数的一致估计。所以,从某种意义上说,我们在这里使用了逻辑分布,尽管它并不完全正确,但参数对于我们希望获得的参数仍然是一致的。因此,如果您的问题源于观察到我们使用相同的似然函数来估计逻辑和分数响应模型,除了我们交换因变量的性质,那么这就是直觉。