为什么假设随机效应在 (G) LMM 中服从正态分布?

机器算法验证 正态分布 混合模式 咕噜咕噜
2022-03-17 03:17:16

简而言之,我的问题如下:

  • 为什么假设正态分布的随机效应很常见(尤其是在广义线性混合模型中)?

更长的版本:

在某些情况下,近似正态分布的随机效应是有意义的。例如,假设我们根据个人的饮食类型 ( ),节食前一次和节食后每月一次。如果个体()被测量两次,则以下 LMM:yxυ

yij=β0+β1x+υi+ϵijυN(0,συ2),ϵN(0,σϵ2)

基本上假设个体()来自一些较大的群体,这会导致其初始权重出现随机、正态分布的偏移。有人可能会争辩说,无论个体(遗传、环境、生活方式)之间存在什么(未知)差异,都可能像独立随机变量的总和一样归结为正态分布事实上,我们可以对结果变量 ( ) 的误差使用几乎相同的参数。υϵ

但是,假设我们在不同的岛屿( )上计算不同地形类型( )中的鸟类( )并使用泊松 GLMM ,为什么(如果有的话)正态性假设仍然站得住脚?当然,两个岛之间不同的随机变量之和会导致具有正态分布误差的结果出现正态分布偏移,但是我们如何证明非正态误差结构的合理性呢?yxυ

我知道 GLMM 对线性部分中的随机效应进行建模,但该线性部分是否仍不假定具有正常的误差结构?(对不起双重否定。)


奖金问题:

  • 是否有任何非正态随机效应的简单示例(例如泊松分布)?
1个回答

几点:

  1. 为线性混合模型(即,正态分布)结果中的随机效应选择正态分布通常是为了数学上的方便。也就是说,的正态分布很好地配合,并且您得到的结果的边际分布是多元正态的。[Yb][b][Y]

  2. 在这方面,将混合模型视为分层贝叶斯模型会有所帮助。也就是说,在线性混合模型中,假设随机效应的正态分布是一个共轭先验,它会给你一个封闭形式的后验。因此,您可以对其他发行版执行相同的操作。如果您有二项式结果数据,则随机效应的共轭先验是 Beta 分布,您将获得 Beta-Binomial 模型。同样,如果您有 Poisson 结果数据,则随机效应的共轭先验是 Gamma 分布,您将获得 Gamma-Poisson 模型。在此明确说明,在前面提到的示例中,随机效应的分布是在结果的平均值的范围内,以随机效应为条件,而不是在线性预测变量的范围内(例如,在 Gamma-Poisson 示例中,

  3. 没有什么能阻止你改变分布。例如,在线性混合模型中,您可以将学生 t 分布用于随机效应,或者在分类结果中使用正态分布。但是这样你就失去了具有封闭形式后验的计算优势。有大量文献研究改变随机效应分布的影响。许多人为此提出了灵活的模型;例如,使用样条或混合能够捕获多模态的随机效应分布。然而,普遍的共识是正态分布的效果很好。也就是说,即使您模拟随机效应的双峰分布或偏态分布的数据,并且您在混合模型中假设它是正常的,结果(即,

  4. 因此,正态分布的选择占主导地位,尽管确实存在其他选择。关于您关于选择正态分布是否适用于分类数据的观点,正如 Ben 所提到的,请注意,随机效应的分布不是放在结果上,而是放在结果的转换均值上。的随机效应的正态分布,其中表示结果变量的预期计数,即观察到的计数。log(μ)μY