具有非常大数据集的混合效应逻辑回归

机器算法验证 物流 混合模式 咕噜咕噜
2022-04-09 05:51:12

我正在进行语言学研究,以确定句子的主语(活力)属性是否会影响是否会提及特定类型的介词短语。我怀疑存在默认的提及倾向,并且动画效果可能会因动词而异。这些数据不是实验性的,而是从语料库中提取的。

我的计划是为此使用混合效应逻辑回归。基本上,我想调查三件事:1)提及 PP 的“默认”倾向(我认为这是固定截距),2)主题的活力对这种倾向的持续影响(如果有的话)和3) 动词特有的效果,它也可能受主语活力的影响。

lme4中,我做了glmer( has_goal ~ bin_figure_anim + (1 + bin_figure_anim | verb), family="binomial", glmerControl=(optimizer="Nelder_Mead", optCtrl=list(maxfun=2e5))),其中bin_figure_anim是主体的活力(0 = 无生命,1 = 有生命)以及has_goal是否实现了 PP(0 = 无 PP,1 = PP)。

这是我的结果:

Generalized linear mixed model fit by maximum likelihood (Laplace Approximation) ['glmerMod']
 Family: binomial  ( logit )
Formula: has_goal ~ bin_figure_anim + (1 + bin_figure_anim | verb)
   Data: df
Control: glmerControl(optimizer = "Nelder_Mead", optCtrl = list(maxfun = 2e+05))

      AIC       BIC    logLik  deviance  df.resid 
 617100.9  617156.5 -308545.4  617090.9    504019 

Scaled residuals: 
    Min      1Q  Median      3Q     Max 
-3.2132 -0.8807 -0.4373  1.0559  5.7377 

Random effects:
 Groups Name            Variance Std.Dev. Corr 
 verb   (Intercept)     1.2649   1.1247        
        bin_figure_anim 0.5367   0.7326   -0.31
Number of obs: 504024, groups:  verb, 312

Fixed effects:
                Estimate Std. Error z value Pr(>|z|)    
(Intercept)     -1.22227    0.06048 -20.209  < 2e-16 ***
bin_figure_anim  0.22869    0.04727   4.837 1.32e-06 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Correlation of Fixed Effects:
            (Intr)
bin_figr_nm -0.333

尽管效果显着,但系数非常小(0.22869;优势比 1.25695232339)。我怀疑这是因为我的样本量非常大(超过 500,000 次观察)。

是否可以得出这样的结论:低 p 值是大样本量的假象,并且影响实际上微不足道?我还能做些什么来获得对得出结论的更多信心?

2个回答

您没有说明您的研究中是否有多个人类受试者应该提及这些介词短语。如果这样做,您的模型将需要通过包含主题的随机效应来反映这一点。

使用您目前制定的模型,1.26 的优势比仅指“典型”动词(即,随机截距和 bin_figure_anim 的随机斜率等于 0 的动词)。对应于其他动词的优势比将在 1.25 左右变化,变化的程度由 bin_figure_anim 的随机斜率的方差控制。在您的情况下,描述这种变化的程度可能会提供信息。因此,第一个要点是在看到“典型”动词的优势比时不要反应过度——其他动词的优势比可能高于/小于它。

专注于“典型”动词,您可以为与其相关的真实优势比构建置信区间。有些人会选择更高的置信水平(例如,99%)来抵消样本量非常大的事实。(出于同样的原因,他们将使用显着性水平 alpha = 0.01 进行显着性检验。)。confint() 函数将帮助您在对数赔率标度上获得此区间 - 您可以对其端点取幂以获得优势比标度上的区间。假设这个区间在优势比尺度上是 (1.11, 1.35)。虽然您从数据中最好的猜测是“典型”动词的真实优势比是 1.26,但实际上这个真实比率可能低至 1.11 和高达 1.35。这种类型的陈述将更恰当地描述估计“典型”动词的真实优势比所涉及的不确定性。它还将帮助您专注于描述“效果大小”,正如@RobertLong 的出色回答中所建议的那样。

样本的大小应该对您有利,以帮助您产生更好的值,以便您最好地猜测“典型”动词的真实优势比是多少。在为该真实值构建置信区间时,您可以通过选择更高的置信水平(例如 99%)来防止样本量过大。同样,您可以为涉及该真实值的显着性检验选择较小的显着性水平(例如,alpha = 0.05)。

PS 在此处发布时,更明确地定义变量及其值会很有帮助。例如,bin_figure_anim 是什么意思?它是一个二进制变量吗?什么时候取值 0,什么时候取值 1?还建议(简要地)描述您的研究设计 - 这样,人们可以判断您提出的模型是否充分反映了您的研究设计。

正如您所说,统计显着性是由于样本量。您应该关注效果大小。1.26 在许多学科中并不是一个特别低的优势比,但在其他学科中却是,所以它确实取决于你认为在你的研究领域中的低优势比。