累积风险函数的直觉(生存分析)

机器算法验证 可能性 生存 冒险
2022-02-13 19:40:25

我试图对精算科学中的每个主要功能(特别是 Cox 比例风险模型)有直觉。这是我到目前为止所拥有的:

  • f(x):从开始时间开始,你会死的概率分布。
  • F(x): 只是累积分布。当时T, 百分之几的人口将死亡?
  • S(x)1F(x). 当时T, 百分之几的人口会活着?
  • h(x): 危险函数。在给定的时间T, 在还活着的人中,这可以用来估计有多少人会在下一个时间间隔内死亡,或者如果间隔->0,则“瞬时”死亡概率。
  • H(x): 累积危害。不知道。

组合危险值背后的想法是什么,尤其是当它们是连续的时?如果我们使用一个离散示例,其中包含四个季节的死亡率,则风险函数如下:

  • 从春天开始,每个人都还活着,20%的人会死去
  • 现在在夏天,剩下的人中,50% 将死去
  • 现在在秋天,剩下的人中,75% 将死去
  • 最后一季是冬天。剩下的人,100%会死

那么累积危害是20%、70%、145%、245%?? 这是什么意思,为什么有用?

4个回答

Mario Cleves 的“An Introduction to Survival Analysis Using Stata”一书(第 2 版)在该主题上有一个很好的章节。

您可以在google 图书上找到章节,p。13-15。但我建议阅读整个第 2 章。

这是简短的形式:

  • “它衡量到时间 t 为止累积的风险总量”(第 8 页)
  • 计数数据解释:“它给出了我们期望(数学上)在给定时期内观察故障 [或其他事件] 的次数,如果只有故障事件是可重复的”(第 13 页)

像你这样把死亡的比例结合起来不会给你带来累积的危险。连续时间的危险率是在很短的时间间隔内将发生事件的条件概率:

h(t)=limΔt0P(t<Tt+Δt|T>t)Δt

累积危害是在年龄/时间上整合(瞬时)危害率。这就像对概率求和,但由于非常小,这些概率也是很小的数字(例如,在 30 岁左右时死亡的危险率可能在 0.004 左右)。之前没有经历过事件,因此对于总体而言,它的总和可能超过 1。Δtt

您可以查看一些人类死亡率生命表,尽管这是一个离散时间公式,并尝试累积mx

如果您使用 R,这里有一个小例子,可以根据每个 1 年年龄间隔的死亡人数来近似这些函数:

dx <-  c(3184L, 268L, 145L, 81L, 64L, 81L, 101L, 50L, 72L, 76L, 50L, 
         62L, 65L, 95L, 86L, 120L, 86L, 110L, 144L, 147L, 206L, 244L, 
         175L, 227L, 182L, 227L, 205L, 196L, 202L, 154L, 218L, 279L, 193L, 
         223L, 227L, 300L, 226L, 256L, 259L, 282L, 303L, 373L, 412L, 297L, 
         436L, 402L, 356L, 485L, 495L, 597L, 645L, 535L, 646L, 851L, 689L, 
         823L, 927L, 878L, 1036L, 1070L, 971L, 1225L, 1298L, 1539L, 1544L, 
         1673L, 1700L, 1909L, 2253L, 2388L, 2578L, 2353L, 2824L, 2909L, 
         2994L, 2970L, 2929L, 3401L, 3267L, 3411L, 3532L, 3090L, 3163L, 
         3060L, 2870L, 2650L, 2405L, 2143L, 1872L, 1601L, 1340L, 1095L, 
         872L, 677L, 512L, 376L, 268L, 186L, 125L, 81L, 51L, 31L, 18L, 
         11L, 6L, 3L, 2L)

x <- 0:(length(dx)-1) # age vector

plot((dx/sum(dx))/(1-cumsum(dx/sum(dx))), t="l", xlab="age", ylab="h(t)", 
     main="h(t)", log="y")
plot(cumsum((dx/sum(dx))/(1-cumsum(dx/sum(dx)))), t="l", xlab="age", ylab="H(t)", 
     main="H(t)")

希望这可以帮助。

猜测它是值得注意的,因为它在诊断图中使用:

(1) 在 Cox 比例风险模型中,其中分别是系数和协变量向量,&是基线风险函数;& 所以如果您绘制估计,则不同的协变量模式遵循平行曲线,前提是比例风险假设是正确的。h(x)=eβTzh0(x)βzh0(x)logH(x)=βTz+H0(x)logH^(x)x

(2) 在 Weibull 模型中,其中 &分别是比例和形状参数;& 所以如果你绘制估计和截距的直线,只要 Weibull 假设正确。当然,接近 1 的斜率表明指数模型可能适合。h(x)=αθ(xθ)α1θαlogH(x)=αlogxαlogθlogH^(x)logxα^α^logθ^

的直观解释是如果个人在每次死亡后复活(不将时间重置为零),则个人之前的预期死亡人数。H(x)x

在解释@Scortchi 所说的内容时,我会强调累积风险函数没有很好的解释,因此我不会尝试将其用作解释结果的一种方式;告诉非统计研究人员累积危害不同,很可能会导致“嗯-嗯”的回答,然后他们将永远不会再询问该主题,而且方式不好。

然而,累积风险函数在数学上非常有用,例如连接风险函数和生存函数的一般方法。因此,了解什么是累积风险以及如何在各种统计方法中使用它是很重要的。但总的来说,我认为从累积风险的角度考虑真实数据并不是特别有用。