我理解在多层次模型中确定自由度的问题;因此,Doug Bates 等人的决定。不要将 p 值报告为 R 中 lme4 包的一部分。更不用说一般情况下存在过多的问题,并且过度关注 p 值。
但是,我想澄清在 nlme 或 lme4 中的多级模型的摘要输出中报告的“t 值”的性质。
从包含相关数据的数据集中报告的 nlme/lme4 中的 t 值实际上不是来自 t 分布吗?(不管我们是否知道自由度)。
lme4 中的“t 值”是否可能具有误导性。
我理解在多层次模型中确定自由度的问题;因此,Doug Bates 等人的决定。不要将 p 值报告为 R 中 lme4 包的一部分。更不用说一般情况下存在过多的问题,并且过度关注 p 值。
但是,我想澄清在 nlme 或 lme4 中的多级模型的摘要输出中报告的“t 值”的性质。
从包含相关数据的数据集中报告的 nlme/lme4 中的 t 值实际上不是来自 t 分布吗?(不管我们是否知道自由度)。
lme4 中的“t 值”是否可能具有误导性。
基本上只是,其中是回归参数。如果您将此值视为此比率或“标准化”参数,则该值没有任何误导性。如果您查看Bates在 lme4中反对值的原始论点,他主要写的是有问题的自由度,而不是(另请参见r-sig-mixed-models FAQ)。请注意,不同的统计软件可以有不同的命名约定,例如SPSS将参数称为并将标准化参数称为的 -- lme4 遵循lm约定来调用它们Estimate和t value.
Pinheiro 和 Bates在“S 和 S-PLUS 中的混合效应模型”中值的用法,因此很难在本书中找到反对它们的论据。Bates 在“lme4:使用 R 的混合效应建模”中还讨论了这些比率,并与固定效应模型的和值进行了比较,例如(第 70 页):
在固定效应模型中,原始比例中的轮廓轨迹将始终是直线。对于混合模型,这些轨迹可能不是线性的,正如我们在这里看到的那样,这与普遍认为的线性混合模型中的固定效应参数的推断相矛盾,基于具有适当调整的自由度的或分布,将是完全准确。偏差轮廓的实际模式比这更复杂。
是什么使它们在某种程度上相似,但并不完全适合我们期望它们用于适当的假设检验。
另请注意,其他作者并不总是认为 df 问题是有问题的,例如“使用 R 的线性混合效应模型”中的 Gałecki 和 Burzykowski只是假设自由度并将它们的分布视为大约,例如(第 84 页):
检验统计量的零分布是具有自由度的
和(第 140 页):
的各个分量的置信区间 可以基于用作检验统计量的近似分布
因此,主要理由似乎是,虽然值可能会因为不明确的零分布而产生误导,但值仍然是有用的,至少作为标准化参数。您也可以将它们用于假设检验,但您需要对它们的分布做出一些假设并通过查看剖面图来验证它们。贝茨似乎在说的是,您使用它们需要您自担风险。
正确,Wald 统计量(由 报告为“t 统计量” lme4)通常最多仅近似于线性混合模型 (LMM) 的 t 分布。它仅在某些非常特殊的情况下是完全 t 分布的,例如,具有嵌套随机因子和平衡数据的混合模型方差分析。
对于具有非正态响应的广义线性混合模型 (GLMM),Wald 统计量的分布甚至可能根本不像 t 型。例如,请参阅逻辑回归上的这个线程,其中我们表明采样分布的尾部可能比正常值更薄,而不是比正常值更厚。(该线程不关注混合模型,但同样的问题出现在那里。)