频率权重、罕见事件和逻辑回归

机器算法验证 r 物流 最大似然 加权抽样 罕见事件
2022-04-06 01:21:55

我正在研究一个模型,该模型需要我寻找罕见事件的预测因子(不到我观察总数的 0.5%)。我的总样本是总人口(50,000 例)的重要组成部分。我的最终目标是获得所有非事件的可比概率值,而不会出现逻辑回归中组差异的偏差。

我一直在阅读以下链接中的信息:

http://gking.harvard.edu/files/gking/files/0s.pdf

它建议我首先使用原始样本的样本,其中包含所有事件 (1) 和非事件 (0) 样本大 1-5 倍的随机样本。

然后它建议使用基于样本 1 到 0 的比例的权重。在链接文本的第 4.2 节中,他提供了一个“易于实现”的加权对数似然,可以在任何 logit 函数中实现。

我希望以某种方式使用 R 的 glm(...,family=binomial(link="logit")) 或类似函数来实现这些权重(“weights”参数不适用于频率加权),但我真的不知道如何应用此权重。

有人知道如何制作它或任何其他替代建议吗?

Edit1:正如下面所建议的,Firth 通过惩罚logistf包中的可能性来进行偏差校正的方法在这种情况下是正确的方法吗?我对统计知识了解不多,虽然我了解逻辑模型的输入和系数/输出,但两者之间发生的事情对我来说仍然是一个谜,抱歉。

0个回答
没有发现任何回复~