“城市”应该是固定变量还是随机效应变量?

机器算法验证 假设检验 混合模式 推理 重复测量 随机效应模型
2022-01-27 01:32:47

我正在分析“血糖”水平(因变量)的数据,并试图找到它与受试者“年龄”、“性别”和“体重”(自变量)的关系。我从四个“城市”的样本中收集了数据。

我应该使用“城市”变量作为固定效应还是随机效应?

所以哪个是正确的:

lm(bloodsugar ~ age + gender + weight + city, mydata)

或者:

lmer(bloodsugar ~ age + gender + weight + (1|city), mydata)

谢谢你的帮助。

编辑:针对@Dave 的评论,我想添加以下内容:目前没有关于我的真实因变量和城市之间关系的数据。所以,关系可能存在。与城市的关系不是我的主要目标,但如果通过适当的统计方法可行的话,确定这种关系也会很好。

3个回答

我建议两者都装。希望他们会告诉你同样的事情。如果没有,那将非常有趣!

从概念上讲,city应该是随机的。您对研究问题的每个城市的估计值并不特别感兴趣,并且您的城市样本可以被认为来自更广泛的城市人口。这些都是将其视为随机的充分理由。

问题是你只有 4 个,所以你要求软件估计一个只有 4 个样本的正态分布变量的方差,所以这可能不是很可靠。

拟合固定效应是完全有效的,这将控制每个城市内的非独立性。在这种情况下,您将其视为混杂因素。使用随机截距的原因是,对于许多城市,这变得不方便并且失去了统计能力。

所以只有 4 个,我会两者都做。

罗伯特龙已经给出了一个很好的答案,但让我加上我的三分钱。正如Dave在评论中已经注意到的那样,在拟合固定效应模型时,您会问这些特定城市之间的差异是什么,而对于随机效应模型,您会问城市之间的可变性是什么这些是完全不同的问题。

如果您有兴趣更深入地讨论两种模型之间的差异,您可以在混合效应模型线程中包含所有可能性时查看我在固定效应与随机效应中的答案。这是一个不同的问题,但答案讨论了与您的问题密切相关的问题。

进一步说明:如果您假设城市变量可能与其他自变量(和血糖水平)相关,则需要将城市建模为固定效应,因为它会违反随机效应独立性的假设。

一个例子可能是佛罗里达州的一个城市,由于冬季较温和,血糖水平较高的老年人往往会聚集在一起。