GLM 对链接功能的鲁棒性

机器算法验证 广义线性模型 二项分布 链接功能
2022-03-28 10:35:00

当我第一次了解 GLM 时,我被告知只要域和共域匹配,链接功能就不是那么重要。例如,在逻辑回归中,我们当然需要,但除此之外我们并不关心。我还了解到,规范链接使数学变得更容易,但除此之外并没有多大关系。g:(0,1)R

不过,最近,我遇到了估计链接函数的情况。如果我的老师是正确的,结果通常对链接函数是稳健的,那么我们为什么要竭尽全力估计它呢?

1个回答

如果您拟合名义分类预测变量(和全阶模型),则链接函数基本上没有任何影响——从某种意义上说,它不会改变拟合。

这是一个使用泊松 glm 的日志和身份链接的示例。首先是数据(y 是响应,计数,x1f 和 x2f 具有因子的水平):

     y    157  909  249  144  876  248   34  205   62   26  243   48
     x1f    1    1    1    1    1    1    2    2    2    2    2    2
     x2f    1    2    3    1    2    3    1    2    3    1    2    3

这是具有交互作用的完整模型的拟合值:

    fitted(glm(y ~ x1f+x2f+x1f:x2f, family=poisson(link="log")))
        1     2     3     4     5     6     7     8     9    10    11    12 
    150.5 892.5 248.5 150.5 892.5 248.5  30.0 224.0  55.0  30.0 224.0  55.0 

fitted(glm(y ~ x1f+x2f+x1f:x2f, family=poisson(link="identity")))
        1     2     3     4     5     6     7     8     9    10    11    12 
    150.5 892.5 248.5 150.5 892.5 248.5  30.0 224.0  55.0  30.0 224.0  55.0 

即使链接功能发生了变化,我们也看到拟合没有改变。

如果您要拟合排除一些交互作用的分类模型(例如仅主效应模型),那么链接函数可能很重要,因为在某些链接函数下,这些交互作用可能确实会消失(使较小的模型适合且更容易解释) --- 但是那些更简单的加法模型将不适合其他链接功能。

继续前面的示例,省略交互:

    fitted(glm(y ~ x1f+x2f, family=poisson(link="log")))
            1         2         3         4         5         6         7         8 
    145.65183 900.94330 244.90487 145.65183 900.94330 244.90487  34.84817 215.55670 
            9        10        11        12 
     58.59513  34.84817 215.55670  58.59513 

    fitted(glm(y ~ x1f+x2f, family=poisson(link="identity")))
            1         2         3         4         5         6         7         8 
    238.72879 618.67616 268.07978 238.72879 618.67616 268.07978  21.90564 401.85300 
            9        10        11        12 
     51.25663  21.90564 401.85300  51.25663 

现在我们看到拟合值确实不同。在这种情况下,日志链接给出了合理的拟合,但身份链接给出了相当差的拟合。

如果您正在拟合连续预测变量,那么它可能非常重要——甚至忽略交互的问题。一个例子是二项式 GLM --- 在许多情况下,概率和阻塞连接的拟合看起来完全不同,即使它们都有g(0,1)R

它的重要性取决于问题的具体情况和您对偏差的容忍度。

在许多情况下,易于解释比拟合差异更重要(至少在这些差异往往很小的情况下),但是您在链接函数的处理容易程度和线性预测变量的可解释性之间存在竞争,而且您还拥有可能缺乏拟合的问题:如果将二项式变量的平均值与预测变量相关联的曲线不对称,则选择更合适的链接可能比扩展模型类更容易解释。