什么时候合适的评分规则可以更好地估计分类设置中的泛化?

机器算法验证 机器学习 模型选择 错误 计分规则
2022-03-17 22:45:34

解决分类问题的典型方法是识别一类候选模型,然后使用交叉验证等程序进行模型选择。通常,人们会选择精度最高的模型,或者选择一些编码问题特定信息的相关函数,比如Fβ.

假设最终目标是产生一个准确的分类器(准确度的定义再次取决于问题),在什么情况下使用适当的评分规则执行模型选择而不是不适当的东西更好,如准确度、精确度、召回率, ETC?此外,让我们忽略模型复杂性的问题,并假设我们先验地考虑所有模型的可能性相同。

以前我会说永远不会。我们知道,从形式上讲,分类比回归 [1]、[2] 更容易,我们可以为前者推导出比后者更严格的界限()。此外,在某些情况下,尝试准确匹配概率可能会导致错误的决策边界过度拟合然而,基于这里的对话和社区对此类问题的投票模式,我一直在质疑这种观点。

  1. Devroye,卢克。模式识别的概率论。卷。31. Springer,1996.,第 6.7 节
  2. 卡恩斯、迈克尔 J. 和罗伯特 E. Schapire。概率概念的高效无分布学习。计算机科学基础,1990 年。论文集,第 31 届年度研讨会。IEEE,1990 年。

()这种说法可能有点草率。我特别指的是给定表格的标记数据S={(x1,y1),,(xn,yn)}xiXyi{1,,K},估计决策边界似乎比准确估计条件概率更容易。

1个回答

将此视为两者之间的比较t-test/Wilcoxon 测试和 Mood 中位数测试。中位数检验使用最佳分类(高于或低于连续变量的中位数),因此它只会丢失1π样本中的信息。在与中位数不同的点进行二分法将丢失更多信息。使用不正确的评分规则,例如“正确”分类的比例最多是2π或大约23高效的。这会导致选择错误的特征并找到虚假的模型。