如何选择切点将预测概率转换为预测响应,以便为逻辑回归制作分类表?我应该采用不同的切点,例如 0.5、0.6、0.7 等吗?(如果我采用不同的值,则预测错误率会因它们而异。)当我采用不同的切点并具有不同的预测错误率时,如何进行概括?
如何选择切点来制作逻辑回归的分类表?
机器算法验证
物流
分类
2022-03-20 10:33:59
2个回答
设置这些切点确实应该在某些决策制定过程的背景下完成。我会给你一个例子,你可能能够概括到你的上下文中。
假设我建立了一个模型,根据他们今天在 X 上的得分来估计一个人在未来发生事件 Y 的概率。然后我在一个尚未出现 Y 的新群体中估计 P(Y|X)。然后,我可以在预测概率中设置一个分界点,说明哪些人处于 Y 的“高风险”中。缺乏任何其他信息或上下文,这完全是武断的,没有用处。
现在假设我想省钱,而发生 Y 的人花了我一些钱。我有一项干预措施,有时会阻止 Y 发生,但这种干预措施也让我花钱。
现在我要做出决定……这就是我选择的截止点可能有意义的地方。如果 X 非常昂贵,与非常便宜和有效的干预相权衡,我可能会将我的分界线设置得很低,甚至干预那些无论如何都不会发生结果的人。相反,如果 X 很便宜,和/或干预很昂贵或效果不佳,我可能会将截止值设置得非常高(或者在极端情况下什么都不做)。基本上,您可以定义一个将所有这些事情联系起来的方程式,并选择最省钱的截止点。
这样做也很有帮助,因为您开始看到它有多难!您对 P(Y|X) 的估计具有不确定性......所有其他参数也是如此 - Y 的成本是多少;干预的效果如何;干预费用是多少?并消除你想要优化比金钱更难衡量的东西的想法,比如幸福。这是你真正看到你的模型有多么有用的时候,或者不是。
例如,有一个 R 包 ROCR,其中包含许多有价值的函数来评估有关分界点的决定。很可能存在一系列在某种意义上是最佳的值。
您也可以根据成本函数/损失函数建立决策。例如,考虑 False Positives 和 False Negatives 并给它们明确的值。然后可以评估从 0..1 开始的所有截止点。
其它你可能感兴趣的问题