我已经阅读了审查是什么以及在生存分析中需要如何考虑它,但我想听听一个不那么数学的定义和一个更直观的定义(图片会很棒!)。谁能向我解释 1)审查和 2)它如何影响 Kaplan-Meier 曲线和 Cox 回归之类的东西?
外行对生存分析中审查的解释
审查通常与截断相比较来描述。Gelman 等人 (2005, p. 235) 对这两个过程进行了很好的描述:
截断数据与截断数据不同,截断点以外的观测计数不可用。删 失后,截断点以外的观察值会丢失,但会观察到它们的数量。
对于高于某个级别(右删失)、低于某个级别(左删失)或两者兼有的值,可能会发生删失或截断。
您可以在下面找到标准正态分布的示例,该分布在点(右)被截断。如果样本被截断,我们没有超出截断点的数据,截断点上方的删失样本值被“四舍五入”到边界值,因此它们在您的样本中被过度表示。
审查的直观示例是,您询问受访者的年龄,但仅将其记录到某个值,并且所有高于该值的年龄(例如 60 岁)都记录为“60+”。这导致获得非审查值的精确信息,而没有关于审查值的信息。
在互联网上引起了极大关注的波兰 matura考试成绩中观察到的审查并不那么典型,现实生活中的例子。考试在高中结束时进行,学生必须通过考试才能申请高等教育。你能从下图中猜出学生通过考试所需的最低分数是多少?毫不奇怪,如果您在审查边界上方取适当比例的过度代表分数,则可以很容易地“填补”其他正态分布中的“差距”。
在生存分析的情况下
当我们有一些关于个体生存时间的信息,但我们不知道确切的生存时间时,就会发生审查
(克莱因鲍姆和克莱因,2005 年,第 5 页)。例如,你用某种药物治疗患者并观察他们直到研究结束,但你不知道研究结束后他们会发生什么(是否有任何复发或副作用?),你唯一知道的是他们“存活”至少直到研究结束。
您可以在下面找到使用 Kaplan-Meier 估计器建模的Weibull 分布生成的数据示例。蓝色曲线标记在整个数据集上估计的模型,在中间图中,您可以看到删失样本和根据删失数据估计的模型(红色曲线),在右侧您可以看到截断样本和在此类样本上估计的模型(红色曲线)。如您所见,缺失数据(截断)对估计有重大影响,但使用标准生存分析模型可以轻松管理审查。
这并不意味着您不能分析截断的样本,但在这种情况下,您必须使用模型来尝试“猜测”未知信息的缺失数据。
Kleinbaum, DG 和 Klein, M. (2005)。生存分析:自学文本。施普林格。
Gelman, A.、Carlin, JB、Stern, HS 和 Rubin, DB (2005)。贝叶斯数据分析。查普曼和霍尔/CRC。
审查是生存分析的核心。
基本思想是信息被审查,你是看不见的。简单地说,如果您记录样本中每个人死亡之前的生命时间,则获得生命时间的删失分布。如果您认为时间在 X 轴上“向右”移动,这可以称为右删失。
还有其他类型:左审查和窗口审查。参见例如 Allison 的 1984 年关于事件历史分析的文本,该文本由 Sage 出版,以获得指导性介绍。
示例:如果您正在计算人口中的离婚率,您只想包括有离婚风险的个人(即,他们已婚)。如果人们因离婚以外的原因(丧亲、离婚)结束婚姻,那么您需要审查他们。他们不再有离婚的风险。您的 Kaplan-Meier 估计值(和绘图)不应包括在删失时间点之后的删失观测值,但应包括直到该时间点为止的观测值。