比较 R 中 GLM 后的因子水平

机器算法验证 r 广义线性模型 参考 多重比较 tukey-hsd-测试
2022-02-11 10:32:40

以下是关于我的情况的一点背景:我的数据是指捕食者成功吃掉的猎物数量。由于每次试验的猎物数量有限(25 个可用),我有一个“样本”列代表可用猎物的数量(因此,每次试验 25 个),另一个称为“计数”,它是成功的数量(吃了多少猎物)。我的分析基于 R 书中关于比例数据的示例(第 578 页)。解释变量是温度(4 个水平,我将其视为因素)和捕食者的性别(显然,男性或女性)。所以我最终得到了这个模型:

model <- glm(y ~ Temperature+Sex+Temperature*Sex, 
          data=predator, family=quasibinomial) 

在得到偏差分析表后,事实证明温度和性别(但不是交互作用)对猎物的消耗有显着影响。现在,我的问题是:我需要知道哪些温度不同,即我必须将这 4 个温度相互比较。如果我有一个线性模型,我会使用该TukeyHSD函数,但因为我使用的是 GLM,所以我不能。我一直在查看 MASS 包并尝试设置对比度矩阵,但由于某种原因它不起作用。有什么建议或参考吗?

这是我从我的模型中得到的摘要,如果这有助于使其更清晰......

y <- cbind(data$Count, data$Sample-data$Count)
model <- glm(y ~ Temperature+Sex+Temperature*Sex, 
             data=predator, family=quasibinomial) 
> summary(model)

# Call:
# glm(formula = y ~ Temperature + Sex + Temperature * Sex, 
       family=quasibinomial, data=data)

# Deviance Residuals: 
#     Min       1Q   Median       3Q      Max  
# -3.7926  -1.4308  -0.3098   0.9438   3.6831  
    
# Coefficients:
#                                        Estimate Std. Error t value Pr(>|t|)    
# (Intercept)                             -1.6094     0.2672  -6.024 3.86e-08 ***
# Temperature8                             0.3438     0.3594   0.957   0.3414    
# Temperature11                           -1.0296     0.4803  -2.144   0.0348 *  
# Temperature15                           -1.2669     0.5174  -2.449   0.0163 *  
# SexMale                                    0.3822     0.3577   1.069   0.2882    
# Temperature8:SexMale                    -0.2152     0.4884  -0.441   0.6606    
# Temperature11:SexMale                    0.4136     0.6093   0.679   0.4990    
# Temperature15:SexMale                    0.4370     0.6503   0.672   0.5033    
# ---
# Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 
    
# (Dispersion parameter for quasibinomial family taken to be 2.97372)    
#     Null deviance: 384.54  on 95  degrees of freedom
# Residual deviance: 289.45  on 88  degrees of freedom
# AIC: NA   
# Number of Fisher Scoring iterations: 5
1个回答

安妮,我会简短地解释一下如何进行这种多重比较。为什么这在您的特定情况下不起作用,我不知道;对不起。

但通常,您可以使用multcomppackage 和 function来做到这一点glht这是一个例子:

mydata      <- read.csv("https://stats.idre.ucla.edu/stat/data/binary.csv")
mydata$rank <- factor(mydata$rank)
my.mod      <- glm(admit~gre+gpa*rank, data=mydata, family=quasibinomial)

summary(my.mod)
# 
# Coefficients:
#              Estimate Std. Error t value Pr(>|t|)  
# (Intercept) -4.985768   2.498395  -1.996   0.0467 *
# gre          0.002287   0.001110   2.060   0.0400 *
# gpa          1.089088   0.731319   1.489   0.1372  
# rank2        0.503294   2.982966   0.169   0.8661  
# rank3        0.450796   3.266665   0.138   0.8903  
# rank4       -1.508472   4.202000  -0.359   0.7198  
# gpa:rank2   -0.342951   0.864575  -0.397   0.6918  
# gpa:rank3   -0.515245   0.935922  -0.551   0.5823  
# gpa:rank4   -0.009246   1.220757  -0.008   0.9940  
# ---
# Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

如果您想计算rank使用 Tukey 的 HSD 之间的成对比较,您可以这样做:

library(multcomp)
summary(glht(my.mod, mcp(rank="Tukey")))
# 
#    Simultaneous Tests for General Linear Hypotheses
# 
# Multiple Comparisons of Means: Tukey Contrasts
# 
# Fit: glm(formula = admit ~ gre + gpa * rank, family = quasibinomial, data = mydata)   
# 
# Linear Hypotheses:
#            Estimate Std. Error z value Pr(>|z|)
# 2 - 1 == 0   0.5033     2.9830   0.169    0.998
# 3 - 1 == 0   0.4508     3.2667   0.138    0.999
# 4 - 1 == 0  -1.5085     4.2020  -0.359    0.984
# 3 - 2 == 0  -0.0525     2.6880  -0.020    1.000
# 4 - 2 == 0  -2.0118     3.7540  -0.536    0.949
# 4 - 3 == 0  -1.9593     3.9972  -0.490    0.960
# (Adjusted p values reported -- single-step method)
# 
# Warning message:
# In mcp2matrix(model, linfct = linfct) :
#   covariate interactions found -- default contrast might be inappropriate

所有成对比较都与p-价值。警告:这些比较只涉及主效应。相互作用被忽略。如果存在交互,将给出警告(如上面的输出所示)。有关在存在交互时如何继续进行的更广泛的教程,请参阅这些额外的multcomp 示例

注意:正如@gung 在评论中指出的那样,您应该 - 只要有可能 - 将温度作为连续变量而不是分类变量。关于交互:您可以执行似然比检验来检查交互项是否显着改善了模型拟合。在您的情况下,代码看起来像这样:

# Original model
model <- glm(y ~ Temperature+Sex+Temperature*Sex, data=predator, family=quasibinomial) 

# Model without an interaction
model2 <- glm(y ~ Temperature+Sex data=predator, family=quasibinomial) 

# Likelihood ratio test
anova(model, model2, test="LRT")

如果此测试不显着,您可以从模型中删除交互。也许glht会工作?