我正在训练逻辑回归来预测哪些跑步者最有可能完成艰苦的耐力赛。
很少有跑者能完成这场比赛,所以我有严重的班级不平衡和一小部分成功的样本(可能有几十个)。我觉得我可以从几乎成功的几十个跑步者那里得到一些好的“信号”。(我的训练数据不仅有完成度,还有那些没有完成的人实际完成了多远。)所以我想知道包含一些“部分学分”是否是一个糟糕的主意。我想出了几个用于部分信用的函数,斜坡和逻辑曲线,它们可以被赋予各种参数。
与回归的唯一区别是我将使用训练数据来预测修改后的连续结果,而不是二元结果。比较他们对测试集的预测(使用二元响应),我得到了相当不确定的结果——逻辑部分学分似乎略微提高了 R 平方、AUC、P/R,但这只是一个使用案例的尝试小样本。
我不关心预测是否一致地偏向于完成——我关心的是正确地对参赛者完成的可能性进行排名,或者甚至估计他们完成的相对可能性。
我知道逻辑回归假设预测变量和优势比的对数之间存在线性关系,如果我开始弄乱结果,显然这个比率没有真正的解释。从理论上讲,我确信这并不聪明,但它可能有助于获得一些额外的信号并防止过度拟合。(我的预测变量几乎与成功一样多,因此使用部分完成的关系来检查完全完成的关系可能会有所帮助)。
这种方法曾经在负责任的实践中使用过吗?
无论哪种方式,是否有其他类型的模型(可能是明确模拟危险率的模型,应用于距离而不是时间)可能更适合这种类型的分析?