给定一个二元分类问题,使用分类器(比如逻辑回归)和回归(其中类用 0 和 1(或任何两个数字)表示)是否有任何内在差异(或优势)?此外,比如说,在运行回归之后,人们可以学习优化“截止”点(在这个例子中可能不是 0.5,但结果是最好在 0.45 处进行切割)。
二元分类的回归
你从一个误解开始。一开始就掌握正确的术语很重要。逻辑回归不是分类器。它是一个直接概率模型。
您没有解释为什么您的问题是全有或全无分类问题与风险估计问题。
我不得不不同意上面的答案。通过使用最大似然估计来拟合概率模型(例如逻辑模型),您将获得更有效/强大/精确的估计,然后将您的效用/成本/损失函数应用于预测概率以做出最佳决策。如果您无法提出效用/损失函数,则很难争辩说您应该首先进行分类,但是您可以做出荒谬的假设,即每次观察的效用都相同,并根据预测的概率进行分类。当你这样做时,你很快就会发现分类是任意的。
请注意,“分类”正确比例是由虚假模型优化的不正确的准确度评分规则。
有趣的问题,我有一段时间有这个问题,。这是我的发现 简短答案
您可以创建任意数量的分类器,但关键是,您只能证明其中一些是贝叶斯/普遍一致的!(贝叶斯一致性意味着分类器是渐近最优的,即无限数据其风险限制贝叶斯风险,这是最优风险)
分类器的一致性取决于损失函数和(逆)链接函数(即从 [0 1] 概率空间映射到,反之亦然。)
长答案
首先,根据Tong 的伟大论文,所有(一致的)分类器都是等价的!除了它们正在最小化不同的损失函数之外,几乎每个分类器之间的差异都是它们的损失函数的结果。事实上,他表明最小化每个损失函数会导致最优决策函数(技术上,反向链接函数),这完全是概率的函数(即使对于 SVM 也是如此!)。下表总结了他的结果(由Hamed提供):
尽管对所有分类器都有这种统一的看法,但它们的输出却不同:
- Probability-Calibrated:对于这些类的分类器(例如 Logistic 回归),输出直接在概率度量内,这反过来不仅回答了分类器的是/否问题,而且还给出了决策的置信度。
- Not-probability-Calibrated:其他分类器(例如 SVM)是实值输出分类器,您可以使用一些链接函数来校准以强制输出为概率。
结论
它实际上取决于损失函数、链接函数、校准。例如,表的第一行表示,最小二乘回归和分类是相同的,(如果您的分类器输出是校准概率,并使用相应的反向链接函数)
关键问题是您是否可能需要估计类成员的概率、排名,或者您是否真的只对二元分类感兴趣。根据我的经验,您通常确实希望将概率作为类频率,或者错误分类成本在操作中是未知的或可变的。如果你有一个概率分类器,你可以在训练后补偿这些问题,如果你有一个离散的是/否分类器,你就不能。
支持向量机背后的指导原则之一是 Vapnik 教授的想法,即在解决特定问题时,您不应该解决更一般的问题然后简化答案。在分类中,这意味着如果您只对二元分类感兴趣,那么我们不应该估计概率然后对它们进行阈值化,因为建模工作和资源被浪费在估计远离决策边界的概率变化上,在那里它们不感兴趣. 这是一个非常合理的想法,我完全同意,前提是您真的只对离散的是/否分类感兴趣。
碰巧的是,如果你对 0/1 目标执行最小二乘回归,无论如何你都会渐近地得到概率估计。这是因为最小二乘法导致输出是目标变量条件均值的估计值。如果这被编码为 0/1,那么条件均值就是给定输入向量的 1 的条件概率。
简而言之,使用哪种方法取决于应用程序的需要,如果您需要测试数据的概率或排名,请使用概率方法(或最小二乘等进行排名)。如果您只想将硬分类为离散类,请使用专为该问题设计的东西,例如 SVM。