Cox 比例风险模型中的似然项

机器算法验证 最大似然 生存 cox模型 比例风险
2022-04-05 13:27:14

我刚刚开始学习 Cox 比例风险模型。我知道危险函数是基线危险率的乘积,危险率依赖于协变量,其中是系数,是协变量。这产生了风险函数,其中协变量的变化会导致随着时间保持不变的风险的乘法缩放。h0(t)exp(βx)βxh(t|x)=h0(t)exp(βx)

当找到回归参数的最大似然估计时,MLE 估计最大化观察给定生存时间集的概率。β

在时间失败的概率应该由其中是一个细区间。可能性是没有的相同方程。我认为这应该是正确的,但我可能错了。itj

Pr(subject i fail in tj+Δt|survive up till tj)=h0(tj)exp(βxi)Δt
ΔtΔt

然而,主题在时间失败的概率通常在其他主题也有在时间失败的概率上进行归一化。为什么我们必须通过对所有受试者在时间有失败风险的概率求和来进行归一化?itjtjtj

该形式通常写为 其中表示在时间处于危险中的人数。

h(tj|xi)kh(tj|xk)
ktj

2个回答

h()不是概率,而是危险,尽管它们是单调相关的。Cox 模型不是完全似然过程,它最大化部分似然。即使我们不直接将危险函数估计为有害参数(这将是一个有条件的可能性方法),我们假装我们知道人们进入和离开队列的顺序,以及谁失败或被审查。这种分组称为风险集,是此处“标准化”因素的关键。如果我们有逻辑回归,我们将简单地使用协变量来预测在分析中成为“案例”的概率。但是,由于风险总和不会标准化为任何常数,或者除了正数之外没有任何界限或约束,我们需要考虑风险集中有多少其他人,以便对特定主题作为案例的风险进行排序在特定的风险集中。

和协变量相关的风险比重写您的最后一个表达式:h0(t)

h0(tj)exp(βxj)kh0(tj)exp(βxk)=exp(βxj)kexp(βxk)

其中代表在时间处于危险之中的人。这就是比例风险假设的价值:基线风险函数只是估计系数值的进一步计算的因素。ktj

您不应该将结果称为“最大似然估计”;正如 AdamO 在另一个答案中指出的那样,它基于“部分可能性”,因为该程序没有考虑到基线危险。