机器算法验证 - 逻辑回归的抽样是否应该反映 1 和 0 的实际比率？ - 吾爱随笔录

逻辑回归的抽样是否应该反映 1 和 0 的实际比率？

机器算法验证物流采样

2022-01-26 20:45:15

假设我想创建逻辑回归模型，该模型可以根据树木的特征（fe 高度）估计一些生活在树上的动物物种的发生概率。与往常一样，我的时间和金钱是有限的，因此我只能收集有限的样本量。

我有以下问题： 我的样本中 1 和 0 的比率是否应该反映 1 和 0 的真实比率？（至少大约）我注意到使用平衡样本（1 和 0 的数量相等）执行逻辑回归模型是一种常见的做法——但是这样的模型给出了超现实的高发生概率——对吗？

是否有任何文章/教科书可以用来**支持这一概念，即不反映 1 和 0 真实比率的模型是“错误的”？**

最后：是否可以执行 1:1 采样并随后根据 Imai 等人的方法用tau校正模型。2007 年？

Kosuke Imai、Gary King 和 Olivia Lau。2007. “relogit：二分因变量的罕见事件 Logistic 回归”，Kosuke Imai、Gary King 和 Olivia Lau，“Zelig：每个人的统计软件”，http://gking.harvard.edu/zelig。

点代表树木（红色 = 占用，灰色 = 未占用）。我能够以 100% 的准确率（1）识别所有占用的树木，但我无法测量森林中的所有树木。每个采样策略（比率）的模型都不同。

1个回答

如果此类模型的目标是预测，那么您不能使用未加权逻辑回归来预测结果：您将高估风险。逻辑模型的优势在于优势比 (OR)——衡量逻辑模型中风险因素和二元结果之间关联的“斜率”——对于结果相关抽样是不变的。因此，如果案例以 10:1、5:1、1:1、5:1、10:1 的比例与对照组进行抽样，那么这并不重要：只要抽样是无条件的，OR 在任何一种情况下都保持不变关于曝光（这将引入伯克森的偏见）。事实上，当完全简单的随机抽样不会发生时，结果依赖抽样是一种节省成本的努力。

为什么风险预测会偏离使用逻辑模型的结果依赖抽样？结果相关抽样会影响逻辑模型中的截距。这导致 S 形关联曲线“沿 x 轴向上滑动”，原因是在总体中的简单随机样本中抽样案例的对数几率与在伪随机样本中抽样案例的对数几率的差异-您的实验设计的总体。（因此，如果您有 1:1 的病例进行对照，则有 50% 的机会在这个伪总体中对病例进行抽样）。在罕见的结果中，这是相当大的差异，是 2 或 3 倍。

当您谈到此类模型“错误”时，您必须关注目标是推理（正确）还是预测（错误）。这也解决了结果与病例的比率。围绕这个主题，您倾向于看到的语言是将此类研究称为“案例控制”研究，该研究已被广泛撰写。也许我最喜欢的关于该主题的出版物是Breslow 和 Day，它作为一项具有里程碑意义的研究，描述了罕见癌症原因的风险因素（以前由于事件的罕见性而无法实施）。病例对照研究引发了围绕对发现的频繁误解的一些争议：特别是将 OR 与 RR（夸大发现）以及作为样本和人群的中介的“研究基础”混为一谈，从而增强了发现。对他们进行了极好的批评。然而，没有批评声称病例对照研究本质上是无效的，我的意思是你怎么可能呢？他们在无数方面促进了公共卫生。Miettenen 的文章很好地指出，您甚至可以在结果依赖抽样中使用相对风险模型或其他模型，并描述大多数情况下结果与总体水平发现之间的差异：它并没有变得更糟，因为 OR 通常是一个硬参数解释。

克服风险预测中过采样偏差的最好和最简单的方法可能是使用加权似然。 Scott 和 Wild讨论了加权并表明它可以纠正截距项和模型的风险预测。当先验了解人群中病例的比例时，这是最好的方法。如果结果的普遍性实际上是 1:100，并且您以 1:1 的方式对控制进行抽样，您只需将控制权重 100 的大小，以获得总体一致的参数和无偏的风险预测。这种方法的缺点是，如果在其他地方进行了错误估计，它就不能解释人口流行率的不确定性。这是一个巨大的开放研究领域，Lumley 和 Breslow提出了一些关于两相采样和双重鲁棒估计器的理论。我认为这是非常有趣的东西。Zelig 的程序似乎只是权重功能的一个实现（这似乎有点多余，因为 R 的 glm 函数允许使用权重）。

其它你可能感兴趣的问题

上一篇为什么 R 函数“princomp”和“prcomp”给出不同的特征值？下一篇是否复制了使用段落向量进行情感分析的最先进性能？