运行单独的模型与多级建模的优缺点是什么?
更具体地说,假设一项研究检查了嵌套在国家内部的医生实践中的患者。为每个国家/地区运行单独的模型与三级嵌套模型相比有哪些优点/缺点?
运行单独的模型与多级建模的优缺点是什么?
更具体地说,假设一项研究检查了嵌套在国家内部的医生实践中的患者。为每个国家/地区运行单独的模型与三级嵌套模型相比有哪些优点/缺点?
这个问题已经过时了,但我认为它非常重要。我能得到的最佳答案来自 Joop J Hox (2010) 的书“多级分析技术和应用,第二版”。
假设两级分层数据,最低层有个解释变量,最高层有个解释变量。然后,在第 55 页,他写道:
相同数据的普通单级回归模型将仅估计截距、一个误差方差和 p + q 回归斜率。如果我们考虑到数据是成组聚集的,那么多级回归模型的优越性是显而易见的。如果我们有 100 个组,分别估计每个组中的普通多元回归模型需要估计 100 ×(1 个回归截距 + 1 个残差方差 + p 个回归斜率)加上与 q 个组级变量的可能交互作用。多级回归通过估计平均截距加上其跨组的残差方差来代替估计 100 个截距,假设这些残差呈正态分布。因此,多级回归分析通过估计两个参数(截距的均值和方差)以及正态假设来代替估计 100 个单独的截距。回归斜率使用相同的简化。我们不是为解释变量瞳孔性别估计 100 个斜率,而是估计平均斜率及其跨组的方差,并假设斜率的分布是正常的。然而,即使解释变量的数量适中,多级回归分析也意味着一个复杂的模型。通常,我们不想估计完整的模型,首先是因为这可能会使我们陷入计算问题,而且还因为解释如此复杂的模型非常困难。
这就是描述。现在第 29-30 页将更准确地回答您的问题。
100 个类别的预测截距和斜率与我们使用标准普通最小二乘法 (OLS) 技术对 100 个类别中的每一个类别进行 100 次单独的普通回归分析所获得的值不同。如果我们将 100 次单独的 OLS 回归分析的结果与从多级回归分析中获得的值进行比较,我们会发现单独分析的结果更具可变性。这是因为 100 个类别的回归系数的多级估计是加权的。它们是所谓的经验贝叶斯 (EB) 或收缩估计:每个类中特定 OLS 估计的加权平均值和对所有相似类估计的总体回归系数。
结果,回归系数缩回到整个数据集的平均系数。收缩权重取决于估计系数的可靠性。以小精度估计的系数比非常精确地估计的系数收缩得更多。估计的准确性取决于两个因素:组样本大小,以及基于组的估计与总体估计之间的距离。小群体的估计值不太可靠,并且比大群体的估计值收缩得更多。在其他条件相同的情况下,与总体估计相差甚远的估计被认为不太可靠,并且它们比接近总体平均值的估计收缩得更多。使用的统计方法称为经验贝叶斯估计。由于这种收缩效应,经验贝叶斯估计是有偏的。然而,它们通常更精确,通常比不偏不倚更有用(见 Kendall,1959)。
我希望它是令人满意的。
优点:能够通过集群明确测试参数差异(即显着性差异并不意味着显着差异)。
指定随机效应涉及假设这些水平的均值是来自正态分布的样本。如果这个假设不适合您的数据,最好将它们指定为固定效应,也就是虚拟变量。通过这种方式,您可以控制均值(在该级别)的分组异质性,但您不允许对较低级别变量的响应存在异质性。
如果您期望响应较低级别的解释变量存在异质性,那么单独的模型是有意义的,除非您想运行某种随机系数模型(这再次涉及系数是正态分布的假设)。
(我相信有一些非正态随机效应的方法,但没有像 lme 这样广泛使用或可访问的方法)