机器算法验证 - 什么时候合适的评分规则可以更好地估计分类设置中的泛化？ - 吾爱随笔录

解决分类问题的典型方法是识别一类候选模型，然后使用交叉验证等程序进行模型选择。通常，人们会选择精度最高的模型，或者选择一些编码问题特定信息的相关函数，比如 $\text{F}_\beta$ .

假设最终目标是产生一个准确的分类器（准确度的定义再次取决于问题），在什么情况下使用适当的评分规则执行模型选择而不是不适当的东西更好，如准确度、精确度、召回率， ETC？此外，让我们忽略模型复杂性的问题，并假设我们先验地考虑所有模型的可能性相同。

以前我会说永远不会。我们知道，从形式上讲，分类比回归 [1]、[2] 更容易，我们可以为前者推导出比后者更严格的界限（ $*$ ）。此外，在某些情况下，尝试准确匹配概率可能会导致错误的决策边界或过度拟合。然而，基于这里的对话和社区对此类问题的投票模式，我一直在质疑这种观点。

Devroye，卢克。模式识别的概率论。卷。31. Springer，1996.，第 6.7 节
卡恩斯、迈克尔 J. 和罗伯特 E. Schapire。概率概念的高效无分布学习。计算机科学基础，1990 年。论文集，第 31 届年度研讨会。IEEE，1990 年。

$(*)$ 这种说法可能有点草率。我特别指的是给定表格的标记数据 $S = \{(x_1, y_1), \ldots, (x_n, y_n)\}$ 和 $x_i \in \mathcal{X}$ 和 $y_i \in \{1, \ldots, K\}$ ，估计决策边界似乎比准确估计条件概率更容易。