随机效应模型处理冗余

机器算法验证 混合模式 生存 随机效应模型 经常性事件
2022-03-29 20:21:25

我正在尝试使用重复的二元结果来处理事件时间分析。假设事件发生时间以天为单位,但目前我们将时间离散为几周。我想使用重复的二元结果来近似 Kaplan-Meier 估计量(但允许协变量)。这似乎是一种迂回的方式,但我正在探索这如何扩展到序数结果和重复事件。

如果你创建一个二进制序列,看起来像 000 表示某人在 3 周时被删失,0000 表示某人在 4w 时被删失,而 0000111111111111....在研究中遵循),当您计算 1 的特定周比例时,您可以获得普通的累积发病率(直到您获得可变的审查时间,这只是近似但不等于 Kaplan-Meier 累积发病率估计)。

我可以使用 GEE 将重复的二进制观察与二进制逻辑模型拟合,而不是像上面那样使时间离散,而是使用时间样条。集群三明治协方差估计器工作得相当好。但我想通过使用混合效应模型来获得更准确的推断。问题是第一个 1 之后的 1 是多余的。有谁知道指定随机效应或指定考虑冗余的模型以使标准误差不会缩小的方法?

请注意,此设置与Efron 的设置不同,因为他使用逻辑模型来估计风险集中的条件概率。我正在估计无条件概率。

3个回答

据我所见,使用 GEE 或用于重复二进制观察的混合模型,您将遇到一个问题,即在观察到第一个“1”后,该模型将为“0”分配一个正概率。

在任何情况下,假设您想从混合效应逻辑回归中获得估计值,该回归与 GEE 中的解释相同(有关更多信息,请参见此处),您可以使用GLMMadaptivemixed_model()包中的函数拟合模型,然后使用. 例如,请参见此处marginal_coefs()

对此有几点想法:

  1. 似乎混合效应模型基本上是一个“条件”概率模型,即,对于处于该事件风险中的对象而言,该事件的概率是多少。

  2. 我们知道在第一个“1”之后出现“1”的概率是 1。因此,在随后的“1”值中没有附加信息。

  3. 似乎,因为随后的“1”值不包含额外信息,它们应该对似然函数没有影响,因此对基于似然的估计器的标准误差没有影响,也不影响估计本身。实际上,如果 p(y='1'|x)=1 无论模型参数值如何,后续的“1”值都不会产生影响,这是应该的。

  4. 我们也许可以强制这种行为(即 p(y='1'|x)=1),并保留所需的均值函数,方法是向模型中添加一个指标协变量来标记后续变量,并强制其系数非常大,因此有效地 p(y='1'|x)=1。

  5. 正如您所提到的,可能还有一种方法可以强制第一个“1”和后续响应具有 100% 的相关性。但在二项式模型中,这与后续响应的 p(y='1'|x)=1 相同。

我不确定您要做什么,但是您可以拟合合并逻辑回归模型(https://www.ncbi.nlm.nih.gov/pubmed/2281238)吗?在这种情况下,您只会在终端事件的间隔期间包含 1 - 在事件发生后它不会重复。您可以灵活的方式将时间包含在模型中(例如,使用样条线展开)。