在训练逻辑回归时给予“部分信用”(连续结果)是一个好主意吗?

机器算法验证 物流 二进制数据 连续数据
2022-03-26 14:46:04

我正在训练逻辑回归来预测哪些跑步者最有可能完成艰苦的耐力赛。

很少有跑者能完成这场比赛,所以我有严重的班级不平衡和一小部分成功的样本(可能有几十个)。我觉得我可以从几乎成功的几十个跑步者那里得到一些好的“信号”。(我的训练数据不仅有完成度,还有那些没有完成的人实际完成了多远。)​​所以我想知道包含一些“部分学分”是否是一个糟糕的主意。我想出了几个用于部分信用的函数,斜坡和逻辑曲线,它们可以被赋予各种参数。

在此处输入图像描述

与回归的唯一区别是我将使用训练数据来预测修改后的连续结果,而不是二元结果。比较他们对测试集的预测(使用二元响应),我得到了相当不确定的结果——逻辑部分学分似乎略微提高了 R 平方、AUC、P/R,但这只是一个使用案例的尝试小样本。

我不关心预测是否一致地偏向于完成——我关心的是正确地对参赛者完成的可能性进行排名,或者甚至估计他们完成的相对可能性。

我知道逻辑回归假设预测变量和优势比的对数之间存在线性关系,如果我开始弄乱结果,显然这个比率没有真正的解释。从理论上讲,我确信这并不聪明,但它可能有助于获得一些额外的信号并防止过度拟合。(我的预测变量几乎与成功一样多,因此使用部分完成的关系来检查完全完成的关系可能会有所帮助)。

这种方法曾经在负责任的实践中使用过吗?

无论哪种方式,是否有其他类型的模型(可能是明确模拟危险率的模型,应用于距离而不是时间)可能更适合这种类型的分析?

1个回答

这似乎是生存分析的工作,例如 Cox 比例风险分析或可能是一些参数生存模型。

与您解释它的方式相反地考虑这个问题:与较早的退出距离相关的预测变量是什么

退出是事件。在标准生存分析中,所覆盖的距离可能被认为等同于事件发生时间。然后,您的事件数量等于退出的人数,因此您的预测变量数量有限的问题将减少。所有退出的人都提供信息。

Cox 模型(如果适用于您的数据)将提供基于所有预测变量值的线性预测变量,按照预测的退出距离对参赛者进行排名。