GEE 中的随机数据缺失

机器算法验证 缺失数据 广义估计方程
2022-03-20 17:19:24

对于使用带有线性链接的 GEE 分析的连续结果,您可以确保标准误差和点估计值与一阶趋势一致,无论结果分布、异方差和轻度非线性问题如何。来自 GEE 的点估计与从最大似然 (OLS) 获得的点估计相同,但标准误差估计是基于 HC 三明治的误差,因此会淹没轻微的经典模型假设违规。

在磨损取决于测量变量(例如年龄)的纵向分析中,您知道所谓的“缺失数据机制”是随机缺失的(不是完全随机缺失,per Little, Rubin 2002),此外,最大可能性由于可能性的分解,包括缺失数据指标和测量行导致的未观察到的可能性贡献,估计“没有偏差”。

我的问题是:

  1. 对于 ML 估计,完整的案例分析是否被认为是有效的?
  2. 对于具有线性链接的 GEE,即使估计与从 ML 获得的相同,估计是否也会有偏差?
  3. 来自 GEE 的具有线性链接的 SE 的真正问题是不能保证是一致的吗?超过由于完整案例分析导致的有效样本量损失?
  4. 如果有其他原因导致 GEE 在这种情况下“错误”,那么加权是否有助于弥补由于完整案例分析导致的有效样本量损失之外的 SE?
1个回答
  1. 基于完整案例的 ML 估计不被认为是有效的,并且可能存在严重的偏差。仅当数据是 MCAR 时,基于可能性的完整案例估计通常是一致的。如果数据是 MAR,那么您可以使用诸如 EM 或数据增强之类的东西来获得有效的基于可能性的估计。用于进行最大似然的适当似然是数据与缺失数据的联合是
    (θYobs,X)=logp(Y X,θ) dYmis
    在哪里Y是响应和X是相关协变量。
  2. GEE 估计在 MAR 下是有偏差的,就像完全案例 ML 估计有偏差一样。
  3. 人们不使用通常的 GEE 估计来解决这些问题,因为它们既不一致又低效。在 MAR 下,一致性问题的一个简单解决方法是通过它们被观察到的反概率对估计方程进行加权,以获得所谓的 IPW 估计。也就是解决
    i=1NI(Yi is complete)φ(Yi;Xi,θ)π(Yi;Xi,θ)=0,
    在哪里iφ(Yi;Xi,θ)=0是你通常的估计方程和π(Y;X,θ)是给出协变量和数据时被完全观察到的概率。顺便说一句,这违反了似然原则,即使缺失可忽略,也需要估计 dropout 机制,并且还会大大夸大估计的方差。仍然没有效率,因为它忽略了我们有部分数据的观察。最先进的估计方程是双重稳健估计,如果正确指定了响应模型或 dropout 模型并且本质上是 GEE 的适合缺失数据的版本,则它们是一致的。此外,他们可能享有称为局部半参数效率的效率属性,这意味着如果一切都正确指定,他们将获得半参数效率。例如,参见这本书.
  4. 基本一致且有效的估计方程都需要通过被观察的反概率加权。编辑:我的意思是半参数一致性而不是参数模型下的一致性。

您还应该注意,通常在具有损耗的纵向研究中,辍学既取决于测量的协变量,也取决于您未观察到的有时的响应,因此您不能只说“我收集了我认为与辍学相关的所有内容“然后说你有 MAR。MAR 是关于世界如何运作的真实假设,并且无法从数据中进行检查。如果两个具有相同响应历史和相同协变量的人在学习,一个辍学,一个不辍学,MAR 本质上说你可以使用留下来的人来学习辍学的人的分布,这是一个非常强的假设。在纵向研究中,专家的共识是对 MAR 假设的敏感性分析是理想的,但我认为这还没有进入软件世界。

不幸的是,我不知道有任何软件可以进行双重稳健估计,但基于可能性的估计很容易(IMO 最简单的方法是使用贝叶斯软件进行拟合,但也有很多软件)。您也可以轻松地进行逆概率加权,但它存在稳定性问题。