假设我有两个基于二进制 0/1 数据训练的逻辑回归模型。目标是将连续值预测为属于正类_1(例如“非垃圾邮件”/“垃圾邮件”)的给定示例的置信度得分。
为了清楚起见,至少在问题的背景下,我不认为逻辑回归是一种分类方法。
两者在准确性和 f1_score 方面都表现良好。但是,我想根据持续评分而不是二元准确性来评估和比较它们。我的理解二进制准确性是邪恶的。
尽管这些模型可以预测分数,但连续量的分布和行为可能与期望的不匹配。
例如,通过给定的观察与 class_1 有一些相似性,这些模型(A 和 B)可能分别产生 0.01 和 0.4 的分数。尽管双方都同意并正确将该样本分类为 class_0,但我更喜欢模型 B,因为更好地反映了样本对 class_1 的趋势(距离)。我会手动估计该样本为 0.4999。
我正在寻找的是作为与正类_1的距离的损失/度量
| y_label_prob - y_hat_prob | -> Huge loss
而不仅仅是错误分类
| y_label_class - y_hat_class | --> No loss
不幸的是,我没有连续标签(y_label_prob)来进行纯回归。如果我有,我可以计算平方误差。相反,我训练了多个二元分类器并将它们的分数均值用作连续标签。
通过使用 0/1 标签来评估关于连续数量的性能可能有什么建议?