罕见事件逻辑回归偏差校正

机器算法验证 回归 物流 罕见事件 偏差校正
2022-04-08 10:11:45

在 King 和 Zheng 的论文中:http: //gking.harvard.edu/files/gking/files/0s.pdf

他们提到了我已经有 90000 个 0 和 450 个 1 的数据。我已经对整个数据进行了逻辑回归,并希望对截距进行事先修正。τy¯

还是应该是我取大约 3000 个 0 和 450 个 1,然后运行逻辑回归,然后对截距应用先前的校正?那么 = 450/90450 和 = 450/3450?τy¯

根据来自的回答进行编辑Scortchi

我正在尝试预测配对发生的概率。买家和卖家、约会网站中的两个可能的个人或求职者和潜在雇员之间可能会发生匹配。1 表示匹配发生,所有其他已记录的成对交互为零。我有来自这些用例之一的真实数据。如前所述,数据中1的比率非常小(= 450 /(450 + 90000)。我想建立一个带有King等人校正的逻辑回归模型。

我拥有的数据可以被假定为所有可能的数据,即它是整个宇宙。我假设宇宙中 1 的比率是 450/(450 + 90000)。

我想从这个数据宇宙中抽取所有的 1(其中 450 个)和随机的 3000 个 0。这将是基于 1 的采样。在此基础上建立逻辑回归后,我想进行偏差校正。

在这里假设 = 450/(450 + 90000) 和 = 450/(450+3000) 是否正确?τy¯

我认为确实是宇宙估计,因为对于我的用例,我几乎拥有所有目标人口数据。我的问题是,在当前的问题设置下,如何运行时间不是问题,但如何对罕见事件进行偏差校正是问题。ττy¯

1个回答

他们也定义 &是总体中 1 的分数;是样本中观察到的 1 的分数(基于先验信息)。τy¯τy¯

当您根据结果进行采样时,通常会使用先前的校正;我猜你不在这里。但如果你有,那么 & 你需要以其他方式y¯=45090450τ

如上一段所述(非常正确),如果完整样本太大而您的计算机内存无法容纳或处理器无法快速处理,则通过牺牲一点精度,下采样可以提供帮助。但在这种情况下,您已经在所有数据上拟合了模型(我怀疑它花了很长时间)。

[您在编辑中描述的是我所说的下采样,并且您正确地应用了先前的校正。在医学统计中,它被称为病例对照设计——请参见此处当您有响应但还没有预测变量时,您可能想要这样做,并且测量这些变量需要额外的成本。不过,我不知道您为什么称其为“罕见事件的偏差校正”:它是对故意引入的采样偏差的截距进行的校正。本文的第 5 节涉及纠正对数优势比和预测概率的最大似然估计的偏差。]