关于解释异质性/异方差性的建议

机器算法验证 回归 混合模式 参考 残差 异方差
2022-03-11 11:26:48

我正在寻找有关如何向我部门的生物学家解释异质性/异方差性的任何帮助、建议或技巧。特别是我想解释为什么寻找它并在它存在时处理它很重要,我正在寻找关于以下问题的意见。

  1. 异质性会影响随机效应估计的可靠性吗?我很确定确实如此,但我找不到论文。
  2. 异质性问题有多严重?我在这方面发现了相互矛盾的观点,虽然有人说模型标准错误等将是不可靠的,但我也读到只有当异质性严重时才会出现问题。严重到什么程度?
  3. 关于建模异质性的建议。目前,我主要关注 R 中的 nlme 包和方差协变量的使用,这非常简单,这里的大多数人都使用 R,因此提供脚本很有用。我也在使用 MCMCglmm 包,但欢迎提出其他建议,特别是对于非正常数据。
  4. 欢迎任何其他建议。
3个回答

Allometry将是生物学家熟悉的一个很好的起点。对数变换通常用于异速生长,因为数据具有幂律形式,还因为噪声过程是异方差的(因为可变性与大小成正比)。有关这导致严重问题的示例,请参阅“用于预测恐龙体重的异速生长方程”,其中关于恐龙只有之前一半大小的结论是不正确的,因为做出了无效的同方差假设(参见对应的细节)。

一种选择是使用模拟。因此,建立一个模型,您可以在其中具体指定异质性假设为var(αi)=X¯i2σu2. 然后从这个模型生成你的数据,以随机截距为例。

αi=X¯iuiuiN(0,σu2)

Yij=αi+βXij+eijeijN(0,σe2)

(希望这个符号有意义)。我相信玩这样的设置会帮助你回答问题 2)。因此,您将使用随机截距来拟合此模型,而实际上它应该是随机斜率(这为您提供了问题 3 的部分答案-随机截距可以在一定程度上解释“扇形”-这是“2 级扇形” )。上面的想法是尽可能地尝试打破你的建模方法——尝试与你对数据的了解一致的极端条件,看看会发生什么。如果您正在努力寻找这些条件,请不要担心。

我对 OLS 的异方差性进行了快速检查,它似乎对估计的 beta 影响不大。对我来说,似乎异方差性在某些地方会低估可能的错误,而在其他地方则会高估可能的错误(以预测的方式)。见下文:

在这里等待数据图,用户目前对计算机感到沮丧

我总是觉得有趣的一件事是人们担心的这种“数据的非正态性”。数据不需要正态分布,但误差项需要。如果这不是真的,那么 GLM 将不起作用 - GLM 使用似然函数的正态近似来估计参数,GLMM 也是如此。

所以我想说,如果估计固定效应参数是主要目标,那么不用担心太多,但是通过考虑异方差性,您可能会获得更好的预测结果。

我所知道的关于异方差性的最佳免费在线资源是 Thoma 教授从 2011 年开始的 ECON 421 讲座。特别是第 1 - 7 讲课。无论您的学科如何,他的讲座都非常有条理,易于理解。

这里是第一讲。你也可以在这里找到 2011 年冬季学期的其余讲座。 http://www.youtube.com/watch?v=WK03XgoVsPM

此外,Thoma 教授的 Econ 421 课程的相应网站有家庭作业问题及其解决方案。对于需要软件的解决方案,该解决方案使用来自 Eviews 的文本、公式和屏幕截图的组合逐步详细说明。

尽管使用 E-views 的屏幕截图详细说明了用于解决作业问题的步骤,但这些解决方案很容易转化为其他统计包,例如 STATA 或 R stats。

2011 学期的作业没有列出任何解决方案,这是 Thoma 教授最后一个录像学期。然而,他的2012 年冬季学期有作业

这是 Thomas Winter 2012 421 课程的家庭作业解决方案部分的链接。具体来说,这里是作业 3 的解决方案,其中将异方差性引入作业集。http://economistsview.typepad.com/economics421/2012/02/solution-to-homework-3.html