何时(以及为什么)条件逻辑回归等效于 Cox 比例风险模型?

机器算法验证 生存
2022-03-25 09:44:23

包中函数的帮助,详细信息部分以:clogitsurvivalR

事实证明,条件逻辑回归模型的对数似然 = 来自具有特定数据结构的 Cox 模型的对数似然。证明这是博士统计学课的一个很好的家庭作业;不是太难,但它是真实的事实令人惊讶。

这里有谁知道(a)那个数据结构是什么,以及(b)为什么会这样?

2个回答

条件逻辑回归和生存分析都是半参数推理的形式,其中未测量的风险因素(例如基线危险函数或未测量的风险因素)之间的复杂关系通过将数据组织成风险集来控制。

形式上,生存分析中的风险集是在观察到故障的每个时间点处于事件风险中的个体的集合。将幸存队列的测量风险因素分布与事件发生时失败的个体进行比较。这个比率允许我们控制复杂的、未测量的基线风险函数,其他因素使用风险比进行乘法中介。我们忽略了每个故障时间之间实际经过的时间量,并认为每个风险集由于后续持续时间较长而以未知的数量递增地处于“更大的风险”中。

条件逻辑回归本身没有风险集,而是匹配集在这些人中,所有未测量的风险因素都被假定为相同。条件逻辑回归迭代地预测每个匹配集中事件的累积风险是多少,只要匹配集可以根据其未测量的风险进行排名。使用 Cox 模型,每个排序匹配集都被视为 Cox 模型中的风险集,然后使用来自 Cox 模型的相同部分可能性计算事件的优势比。使用来自这些估计优势比的预测,更新排名以考虑由于未测量的因素导致的这些匹配组的风险(因为我们更新的预测更好地考虑了测量的风险因素使用优势比)。这个过程迭代,直到使用期望最大化框架达成一致(或收敛)。这就是为什么clogit收敛时间比简单的 Cox 模型要长得多的原因。

形式上,因为在条件逻辑回归中未测量因素的风险方面存在“一点点估计”,所以这种方法是“条件似然”最大化,而 Cox 模型是“部分似然”最大化。

所以

数据结构)风险集/匹配集

为什么)两者都说明了无法衡量的风险来源。

该数据结构与所有观察到的事件时间同时绑定,并且仅在对这些关系进行一种特定处理时发生 - 即确保测试与标准对数秩测试匹配的处理。这有一个基本假设,即绑定事件时间真正表明事件发生在完全相同的时间。这与它们之前的某个时间点发生过相反,但仅在记录的事件时间观察/识别/诊断。在比较两组的情况下,在这两种情况下,都使用超几何分布来比较组,并且以相同的方式对效应大小进行参数化。