在 King 和 Zheng 的论文中:http: //gking.harvard.edu/files/gking/files/0s.pdf
他们提到了和。我已经有 90000 个 0 和 450 个 1 的数据。我已经对整个数据进行了逻辑回归,并希望对截距进行事先修正。
还是应该是我取大约 3000 个 0 和 450 个 1,然后运行逻辑回归,然后对截距应用先前的校正?那么 = 450/90450 和 = 450/3450?
根据来自的回答进行编辑Scortchi
我正在尝试预测配对发生的概率。买家和卖家、约会网站中的两个可能的个人或求职者和潜在雇员之间可能会发生匹配。1 表示匹配发生,所有其他已记录的成对交互为零。我有来自这些用例之一的真实数据。如前所述,数据中1的比率非常小(= 450 /(450 + 90000)。我想建立一个带有King等人校正的逻辑回归模型。
我拥有的数据可以被假定为所有可能的数据,即它是整个宇宙。我假设宇宙中 1 的比率是 450/(450 + 90000)。
我想从这个数据宇宙中抽取所有的 1(其中 450 个)和随机的 3000 个 0。这将是基于 1 的采样。在此基础上建立逻辑回归后,我想进行偏差校正。
在这里假设 = 450/(450 + 90000) 和 = 450/(450+3000) 是否正确?
我认为确实是宇宙估计,因为对于我的用例,我几乎拥有所有目标人口数据。我的问题是,在当前的问题设置下,如何和?运行时间不是问题,但如何对罕见事件进行偏差校正是问题。