我正在进行语言学研究,以确定句子的主语(活力)属性是否会影响是否会提及特定类型的介词短语。我怀疑存在默认的提及倾向,并且动画效果可能会因动词而异。这些数据不是实验性的,而是从语料库中提取的。
我的计划是为此使用混合效应逻辑回归。基本上,我想调查三件事:1)提及 PP 的“默认”倾向(我认为这是固定截距),2)主题的活力对这种倾向的持续影响(如果有的话)和3) 动词特有的效果,它也可能受主语活力的影响。
在lme4中,我做了glmer( has_goal ~ bin_figure_anim + (1 + bin_figure_anim | verb), family="binomial", glmerControl=(optimizer="Nelder_Mead", optCtrl=list(maxfun=2e5))),其中bin_figure_anim是主体的活力(0 = 无生命,1 = 有生命)以及has_goal是否实现了 PP(0 = 无 PP,1 = PP)。
这是我的结果:
Generalized linear mixed model fit by maximum likelihood (Laplace Approximation) ['glmerMod']
Family: binomial ( logit )
Formula: has_goal ~ bin_figure_anim + (1 + bin_figure_anim | verb)
Data: df
Control: glmerControl(optimizer = "Nelder_Mead", optCtrl = list(maxfun = 2e+05))
AIC BIC logLik deviance df.resid
617100.9 617156.5 -308545.4 617090.9 504019
Scaled residuals:
Min 1Q Median 3Q Max
-3.2132 -0.8807 -0.4373 1.0559 5.7377
Random effects:
Groups Name Variance Std.Dev. Corr
verb (Intercept) 1.2649 1.1247
bin_figure_anim 0.5367 0.7326 -0.31
Number of obs: 504024, groups: verb, 312
Fixed effects:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -1.22227 0.06048 -20.209 < 2e-16 ***
bin_figure_anim 0.22869 0.04727 4.837 1.32e-06 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Correlation of Fixed Effects:
(Intr)
bin_figr_nm -0.333
尽管效果显着,但系数非常小(0.22869;优势比 1.25695232339)。我怀疑这是因为我的样本量非常大(超过 500,000 次观察)。
是否可以得出这样的结论:低 p 值是大样本量的假象,并且影响实际上微不足道?我还能做些什么来获得对得出结论的更多信心?