如何通过二进制 0/1 数据评估连续度量的逻辑回归

机器算法验证 回归 分类 损失函数 公制
2022-03-27 08:53:58

假设我有两个基于二进制 0/1 数据训练的逻辑回归模型。目标是将连续值预测为属于正类_1(例如“非垃圾邮件”/“垃圾邮件”)的给定示例的置信度得分。

为了清楚起见,至少在问题的背景下,我不认为逻辑回归是一种分类方法。

两者在准确性和 f1_score 方面都表现良好。但是,我想根据持续评分而不是二元准确性来评估和比较它们。我的理解二进制准确性是邪恶的

尽管这些模型可以预测分数,但连续量的分布和行为可能与期望的不匹配。

例如,通过给定的观察与 class_1 有一些相似性,这些模型(A 和 B)可能分别产生 0.01 和 0.4 的分数。尽管双方都同意并正确将该样本分类为 class_0,但我更喜欢模型 B,因为更好地反映了样本对 class_1 的趋势(距离)。我会手动估计该样本为 0.4999。

我正在寻找的是作为与正类_1的距离的损失/度量

| y_label_prob - y_hat_prob | -> Huge loss

而不仅仅是错误分类

| y_label_class - y_hat_class | --> No loss

在此处输入图像描述

不幸的是,我没有连续标签(y_label_prob)来进行纯回归。如果我有,我可以计算平方误差。相反,我训练了多个二元分类器并将它们的分数均值用作连续标签。

通过使用 0/1 标签来评估关于连续数量的性能可能有什么建议?

1个回答

请记住,逻辑回归输出的是概率,而不是类别。您使用平方损失的想法很好。事实上,这被称为 Brier 分数。

如果您的标签为并且您的预测概率为,则该点的 Brier 得分损失为10.75(10.75)2=0.0625

如果您的下一个标签是并且您的预测概率是,那么您在该点的 Brier 得分损失是00.6(00.6)2=0.36

将它们加起来,得到作为这个两点模型的 Brier 分数。0.4225

Brier Score

i=1n(yip^i)2

Brier 评分是严格正确评分规则的一个示例。另一个可能更受欢迎的著名是日志损失:iyilogp^i+(1yi)log(1p^i)

是真实标签;是预测概率。)yip^i

还有其他严格正确的评分规则,但这些都是大问题。值得注意的是,绝对损失不是正确的计分规则:(为什么)绝对损失不是正确的计分规则吗?.