如果此类模型的目标是预测,那么您不能使用未加权逻辑回归来预测结果:您将高估风险。逻辑模型的优势在于优势比 (OR)——衡量逻辑模型中风险因素和二元结果之间关联的“斜率”——对于结果相关抽样是不变的。因此,如果案例以 10:1、5:1、1:1、5:1、10:1 的比例与对照组进行抽样,那么这并不重要:只要抽样是无条件的,OR 在任何一种情况下都保持不变关于曝光(这将引入伯克森的偏见)。事实上,当完全简单的随机抽样不会发生时,结果依赖抽样是一种节省成本的努力。
为什么风险预测会偏离使用逻辑模型的结果依赖抽样?结果相关抽样会影响逻辑模型中的截距。这导致 S 形关联曲线“沿 x 轴向上滑动”,原因是在总体中的简单随机样本中抽样案例的对数几率与在伪随机样本中抽样案例的对数几率的差异-您的实验设计的总体。(因此,如果您有 1:1 的病例进行对照,则有 50% 的机会在这个伪总体中对病例进行抽样)。在罕见的结果中,这是相当大的差异,是 2 或 3 倍。
当您谈到此类模型“错误”时,您必须关注目标是推理(正确)还是预测(错误)。这也解决了结果与病例的比率。围绕这个主题,您倾向于看到的语言是将此类研究称为“案例控制”研究,该研究已被广泛撰写。也许我最喜欢的关于该主题的出版物是Breslow 和 Day,它作为一项具有里程碑意义的研究,描述了罕见癌症原因的风险因素(以前由于事件的罕见性而无法实施)。病例对照研究引发了围绕对发现的频繁误解的一些争议:特别是将 OR 与 RR(夸大发现)以及作为样本和人群的中介的“研究基础”混为一谈,从而增强了发现。对他们进行了极好的批评。然而,没有批评声称病例对照研究本质上是无效的,我的意思是你怎么可能呢?他们在无数方面促进了公共卫生。Miettenen 的文章很好地指出,您甚至可以在结果依赖抽样中使用相对风险模型或其他模型,并描述大多数情况下结果与总体水平发现之间的差异:它并没有变得更糟,因为 OR 通常是一个硬参数解释。
克服风险预测中过采样偏差的最好和最简单的方法可能是使用加权似然。
Scott 和 Wild讨论了加权并表明它可以纠正截距项和模型的风险预测。当先验了解人群中病例的比例时,这是最好的方法。如果结果的普遍性实际上是 1:100,并且您以 1:1 的方式对控制进行抽样,您只需将控制权重 100 的大小,以获得总体一致的参数和无偏的风险预测。这种方法的缺点是,如果在其他地方进行了错误估计,它就不能解释人口流行率的不确定性。这是一个巨大的开放研究领域,Lumley 和 Breslow提出了一些关于两相采样和双重鲁棒估计器的理论。我认为这是非常有趣的东西。Zelig 的程序似乎只是权重功能的一个实现(这似乎有点多余,因为 R 的 glm 函数允许使用权重)。