我正在对包含数千个人的特定研究组进行生存分析。我正在寻找从总人口(数百万个人)中获得参考人口的最佳方法。
参考人群的年龄必须匹配,例如与研究人群具有相同的年龄分布。由于总人口远大于研究人口,匹配的参考人口也可能大得多。
最简单的方法是简单地从与研究人群(年龄匹配)相同大小的总人群中抽取一个子样本。这样做意味着永远不会使用总人口中的绝大多数,这可能会引入偏差并肯定会扩大参考人口的置信区间。
为了避免这个问题,我目前正在考虑两种重采样方法。我对幸存者函数使用 Kaplan-Meier 估计器.
第一种方法
引导总人口以绘制大量(匹配的)子样本(假设样品个人,与年龄相匹配),
将子样本聚合成一个大群体其中包含重复项(非独特个体),
计算参考幸存者函数,
使用指数格林伍德置信区间(对数对数变换)。
第二种方法
引导总人口以绘制大量(匹配的)子样本(假设样品个人,与年龄相匹配),
计算每个子样本的幸存者函数:,
聚合幸存者函数估计,全局幸存者估计为,
置信区间可以直接从一组幸存者函数估计中获得。
我必须考虑支持/反对这两种方法的任何强有力的统计因素吗?有没有更好的方法来获得匹配的参考人群?我目前倾向于使用第一种方法,因为它更容易实现,并且置信区间有一个常用的封闭形式。