我们可以在多级/分层设计中将非随机因素建模为随机吗?

机器算法验证 随机效应模型 混合模式
2022-03-09 11:11:21

严格随机变量(应该这样建模)和非随机变量之间的区别,有些人认为如果它是分层/多级模型,则可以将其建模为随机变量,这对我来说是模糊的。

Bates 和Bolker 用真正随机的情况举例说明随机效应,例如随机选择样本中的产品质量。尽管他们的lme4工作令人难以置信,但仍不清楚随机与非随机之间的界限在哪里。社会科学中的讨论使这一点更加模糊。多级/分层模型和随机效应模型在计算上是相等的lme4,那么我们在哪里画线呢?

例如,我有一个数据集,对几个人进行了重复测量(这是随机的!),但我相信,并且结果lme4表明,很大一部分差异存在于他们的社会经济变量中(例如生活区域、种族等)。这些变量不是随机的,但多级模型认为这些变量可以这样使用。其他示例来自对学生成绩的研究,通常将学生嵌套在教师中,并进一步嵌套在学校中。所有这些变量都是常数。

如果在多级(分层)模型领域是合理的,我们可以将非随机因素建模为随机因素吗?

1个回答

我对你的问题感到困惑。我知道你说你理解固定效应和随机效应,但也许你不像我那样理解它们。我在这里发布了一个印刷书籍章节的相当长的摘录,它解释了我的观点(相当务实,与 Andrew Gelman 的观点相当接近)。

更直接地回答这个问题:

  • 将收入等社会经济变量的主要影响随机纳入(IMO)没有任何意义。 如果您对每个人的收入进行了不止一种测量,则可以将个人作为分组变量包括在内,并允许收入对响应(无论是什么)的影响因人而异。
  • 种族似乎作为一种固定效应最有意义,并且您不太可能能够在多个种族的影响下衡量一个人,但您可能(例如)能够表征效应的随机变化跨越不同国家的种族。可以将其视为随机效应(即种族之间的模型差异是从正态分布中得出的),但这可能是不切实际的,因为您的数据集中可能没有足够的不同种族,而且很难我要为此提出一个很好的概念论据...
  • “居住面积”作为一个分组变量是有意义的,这肯定是一个合理的随机效应(即截距会因居住区而异)。个人可能会嵌套在区域内,除非个人在您研究的时间范围内在区域之间移动。
  • 您的情况似乎是个体之间存在一些随机变化的情况,但您也有个体水平的协变量。将这些个体层面的协变量(种族、收入等)添加到模型中将解释一些个体间的变异性(这可能是一个好主意)。

它可能会增加区分分组变量(必须是分类变量)的清晰度,分组变量代表事物变化的组,以及影响,这是某些参数/影响的差异(通常是截距,但可能是收入的影响/教育/其他)跨越一些分组变量的水平。

更新:我会冒昧地给你一些对立面

我对随机效应的理解:从人群中随机选择的因素;

  • 也许,这取决于你的哲学观。这在经典的常客范式中必需的,但我会稍微放松一下,询问将这些影响视为来自一些假设人群的随机抽取是否合理。(这里的经典例子是(1)详尽抽样(如果您对城市中的每个社区或国家/地区的每个地区/省/州都有测量结果呢?您仍然可以将它们视为来自某些超级人口的随机抽取吗?和(2 )按顺序测量的时间段(例如,2002-2012 年)。在这两种情况下,我会说使用随机效应对它们进行建模具有实用意义。)

因子的水平没有什么意义;

  • 不必要。我认为随机效应必须是令人讨厌的变量的想法在实践中并不成立。例如,在动物育种分析中,人们可能对了解特定动物的育种价值 (BLUP) 非常感兴趣。(所谓的关注程度确实对人们比较模型的方式有一些影响。)

变量是未观察到的因素。

我不确定这个是什么意思。你知道每个观察来自哪个社区,对吧?那是怎么“不被观察”的?(如果您怀疑基于未观察到的因素对数据进行聚类,则需要拟合离散混合模型。)如果您的意思是您不知道为什么社区不同,我认为这在这里并不重要。

所以以邻里为例。这是我主要感兴趣的变量,水平很重要。我使用混合模型并验证其中存在大量差异。

我能想到使用邻域作为随机效应的唯一原因是,如果你只测量了少量(比如 <6)的邻域。