贝叶斯决策边界和分类器

机器算法验证 分类
2022-04-14 07:37:12

说分类器(例如 K-NN、Logistic Regression、LDA)的目的是逼近贝叶斯决策边界是否正确?

1个回答

是的,贝叶斯分类器是产生最低可能测试错误率的分类器。我认为最好通过一个例子来说明这一点。

为了简化一点,假设我们有一个简单的两类分类问题。例如,我们调查一组学生并收集他们的年龄、SAT 分数和当前 GPA,并希望预测他们是否会通过课程。所以在R中它会像fail ~ age + sat.score + current.GPA

贝叶斯分类器的工作原理是仅查看每个特征组合的概率,并将每个实例分配给概率大于 50% 的类。

想象一下,我们确实调查了所有存在的学生。然后在这种情况下,分类器将知道所有可能的特征组合失败或失败的正确概率,然后它将给出可能的最佳分类精度。

然而,这并不意味着它将能够正确分类所有实例(即,具有 0% 的错误率),因为在大多数情况下这是不可能的。

在我们的示例中,很可能一些学生对所有三个特征具有相同的值,但其中一些会失败,而另一些则不会。没有一个分类器可以为您提供 100% 正确答案,因为无法区分失败与否的学生(对于分类器,它们看起来相同)。添加新特征,例如以前的知识或智商等可能会有所帮助,但随后问题定义会发生变化,这可能会提高分类准确性。

因此,例如对于给定的特征组合,如果 80% 的学生通过并且只有 20% 的不及格,那么贝叶斯分类器将预测具有该特征组合的学生将通过课程,因为这更有可能。

贝叶斯分类器的这种最小可能错误率称为不可约错误,所有分类器都表现出它。除了这种类型的错误之外,其他分类器也表现出可减少的错误,可以描述为对这些概率的良好但不完美的估计。鉴于大多数时候我们没有这个完美的信息,不同分类模型的想法是做出不同的假设,这些假设足以产生足够高的分类精度,同时不需要收集关于整个人群的数据。

阅读 Hastie 和 Tibshiani 的“统计学习简介”中的完整说明http://www-bcf.usc.edu/~gareth/ISL/(第 38 页)