我正在从UCLA IDRE 上的这篇文章中学习生存分析,并在第 1.2.1 节被绊倒。教程说:
...如果已知生存时间呈指数分布,那么观察到生存时间的概率...
为什么假设生存时间呈指数分布?这对我来说似乎很不自然。
为什么不是正态分布?假设我们正在调查某个生物在特定条件下的寿命(比如天数),它是否应该更集中在一些具有一定差异的数字上(比如 100 天,差异 3 天)?
如果我们希望时间严格为正,为什么不做均值较高且方差很小的正态分布(几乎没有机会得到负数。)?
我正在从UCLA IDRE 上的这篇文章中学习生存分析,并在第 1.2.1 节被绊倒。教程说:
...如果已知生存时间呈指数分布,那么观察到生存时间的概率...
为什么假设生存时间呈指数分布?这对我来说似乎很不自然。
为什么不是正态分布?假设我们正在调查某个生物在特定条件下的寿命(比如天数),它是否应该更集中在一些具有一定差异的数字上(比如 100 天,差异 3 天)?
如果我们希望时间严格为正,为什么不做均值较高且方差很小的正态分布(几乎没有机会得到负数。)?
指数分布通常用于模拟生存时间,因为它们是可用于表征生存/可靠性数据的最简单分布。这是因为它们是无记忆的,因此风险函数是恒定的 w/r/t 时间,这使得分析非常简单。这种假设可能是有效的,例如,对于某些类型的电子元件,如高质量集成电路。我相信您可以想到更多示例,可以安全地假设时间对危险的影响可以忽略不计。
但是,您正确地观察到,在许多情况下,这不是一个适当的假设。在某些情况下,正态分布可能没问题,但显然负生存时间是没有意义的。因此,通常考虑对数正态分布。其他常见的选择包括 Weibull、最小极值、最大极值、Log-logistic 等。模型的明智选择将由学科领域经验和概率图决定。当然,您也可以考虑非参数建模。
生存分析中经典参数建模的一个很好的参考是:William Q. Meeker 和 Luis A. Escobar (1998)。可靠性数据的统计方法
在生存分布中如何弹出指数添加一些数学直觉:
生存变量的概率密度为,其中是当前危险(一个人今天“死亡”的风险),是的概率。可以扩展为一个人在第 1 天幸存下来的概率,并且在第 2 天幸存下来……直到第天。那么: 具有常数和小风险,我们可以使用: 近似为
免责声明:这绝不是对 pdf 的正确推导的尝试——我只是认为这是一个巧妙的巧合,欢迎任何关于为什么这是正确/不正确的评论。
编辑:通过@SamT 更改了每个建议的近似值,请参阅评论以供讨论。
您几乎肯定会希望查看可靠性工程和预测,以便对生存时间进行全面分析。其中,有一些经常使用的发行版:
Weibull(或“浴缸”)分布是最复杂的。它解释了三种类型的故障模式,它们在不同的年龄占主导地位:婴儿死亡率(有缺陷的部件早期损坏)、诱发故障(部件在系统的整个生命周期中随机损坏)和磨损(部件从采用)。使用时,它有一个看起来像“\__/”的 PDF。特别是对于某些电子产品,您可能会听到“老化”时间,这意味着这些部件已经通过曲线的“\”部分进行操作,并且已经排除了早期故障(理想情况下)。不幸的是,威布尔分析很快就失效了如果您的零件不是同质的(包括使用环境!),或者如果您在不同的时间尺度上使用它们(例如,如果某些零件直接投入使用,而其他零件先入库,则“随机故障”率将由于混合了两种时间测量(运行时间与使用时间),因此存在显着差异。
正态分布几乎总是错误的。每个正态分布都有负值,没有可靠性分布。它们有时可能是一个有用的近似值,但在这种情况下,您几乎总是在查看对数正态分布,因此您不妨只使用正确的分布。当您有某种磨损和可忽略的随机故障时,正确使用对数正态分布,并且在其他情况下!与正态分布一样,它们足够灵活,您可以强制它们拟合大多数数据;你需要抵制这种冲动,并检查情况是否合理。
最后,指数分布是真正的主力。您通常不知道零件有多旧(例如,当零件未序列化并且它们投入使用时有不同的时间时),因此任何基于内存的分发都已失效。此外,许多部件的磨损时间非常长,以至于它要么完全由诱发故障主导,要么超出了有用的分析时间范围。因此,虽然它可能不像其他发行版那样完美,但它只是不关心那些绊倒它们的东西。如果你有一个 MTTF(人口时间/故障计数),你有一个指数分布。最重要的是,您不需要对系统有任何物理上的了解。你可以做指数估计基于观察到的部分 MTTF(假设样本足够大),它们非常接近。它对原因也有弹性:如果每隔一个月,有人感到无聊并与某个部分一起玩槌球直到它坏掉,指数说明了这一点(它滚入 MTTF)。指数也很简单,您可以对冗余系统的可用性等进行粗略计算,这显着增加了它的有用性。
一些生态学可能有助于回答这个问题背后的“为什么”。
使用指数分布来模拟生存的原因是由于生活在自然界中的生物体所涉及的生命策略。生存策略基本上有两个极端,中间有一些空间。
这是一张说明我的意思的图片(由可汗学院提供):
该图在 Y 轴上绘制了幸存的个人,在 X 轴上绘制了“最大预期寿命百分比”(也就是个人年龄的近似值)。
I 型是人类,其模型有机体对其后代具有极高的照顾水平,确保了极低的婴儿死亡率。通常这些物种的后代很少,因为每个后代都需要父母大量的时间和精力。杀死 I 型生物的大部分是老年时出现的并发症类型。这里的策略是高投资以在漫长而富有成效的生活中获得高回报,如果以绝对数量为代价。
相反,类型 III 由树木(但也可能是浮游生物、珊瑚、产卵鱼、多种昆虫等)建模,其中父母对每个后代的投资相对较少,但会生产大量树木,希望少数人会存活。这里的策略是“喷洒和祈祷”,希望虽然大多数后代会被掠食者利用容易采摘的优势相对较快地摧毁,但少数能够存活足够长以生长的将变得越来越难以杀死,最终变得(实际上)不可能吃过。与此同时,这些个体产生了大量的后代,希望其中一些也能活到他们自己的年龄。
II 型是一种中等策略,父母投资适中,所有年龄段的生存能力适中。
我有一位生态学教授是这样说的:
“第三类(树)是‘希望曲线’,因为一个人生存的时间越长,它就越有可能继续生存。而第一类(人类)是‘绝望曲线’,因为越长你活着,你死的可能性就越大。”