我目前正在研究生存分析的基本方法,我遇到了这个在给定间隔内有效样本量的奇怪估计量。对于第 j 个区间,估计量由下式给出
其中是在第 j 个间隔开始时有死亡风险的个体数量,是审查生存时间的数量。估计量是在假设整个 j 间隔内删失的生存时间一致的情况下使用的。
那么我的问题是,该估算器如何证明是合理的?为什么不使用更简单直观的呢?我怀疑可以提出一个偏差论点,就像样本方差的情况一样,但我还没有弄清楚。
更准确地说,这里是刘宪《生存分析》一书中的确切摘录:
非常感谢所有帮助,谢谢。
我目前正在研究生存分析的基本方法,我遇到了这个在给定间隔内有效样本量的奇怪估计量。对于第 j 个区间,估计量由下式给出
其中是在第 j 个间隔开始时有死亡风险的个体数量,是审查生存时间的数量。估计量是在假设整个 j 间隔内删失的生存时间一致的情况下使用的。
那么我的问题是,该估算器如何证明是合理的?为什么不使用更简单直观的呢?我怀疑可以提出一个偏差论点,就像样本方差的情况一样,但我还没有弄清楚。
更准确地说,这里是刘宪《生存分析》一书中的确切摘录:
非常感谢所有帮助,谢谢。
在所考虑的区间内审查的观察在整个期间没有死亡风险。
它们不计为整个人的暴露期,而只是他们暴露的一小部分。在均匀性假设下,它们平均暴露半个周期。所以平均每个被审查的人会失去半个人的曝光时间。
案文措辞有点尴尬,但它将人平均一半时间未暴露在研究中,相当于一半被审查的人未暴露于研究中的死亡风险(等效地,不在研究中)- - 这是相同数量的人-暴露期。
在下图中,当删失的观测值和未删失的观测值用“死亡时的x ”标记时,删失的观测值用“ o ”标记。未经审查的那些就像根本没有审查一样计数,但经过审查的那些减少了曝光:
我已经分别将审查值分开,然后按曝光对它们进行排序。如果您采用较短曝光时间的审查值,您可以(平均)使用它们来“填充”曝光时间较长的曝光时间,从而使一半审查的生命完全曝光而一半没有曝光。
也就是说,您平均损失了个人的曝光时间,但您可以将其视为仅在该期间开始时损失一半被审查的人(另一半在整个期间都被曝光),从而减少的计数。
谢谢你的讨论,我对这个分母更正也持怀疑态度。当您估算一个比率时,您必须考虑受试者在给定时间段内花费的总时间,因此通常假设被审查(以及死亡)的人平均生活了一半的时间。但是,当您估计条件概率时,情况并非如此,即假定受试者在周期开始时仍然活着的情况下在该周期内死亡的概率。在这种情况下,分母上的主题数量是进入该时期的 - 为什么要在这种情况下纠正一半的审查?