贝叶斯分类

数据挖掘 分类 逻辑回归 监督学习 贝叶斯网络
2022-02-13 10:21:33

理论上,我们总是希望使用贝叶斯分类器来预测定性响应。但是对于真实数据,我们不知道给定 X 的 Y 的条件分布,因此计算贝叶斯分类器是不可能的。因此,贝叶斯分类器作为比较其他方法无法达到的黄金标准。

  • 在现实生活中,为什么我们不能计算贝叶斯分类器?
  • 为什么我们不能计算给定 X 的 Y 的条件分布?
  • 可以用一个例子来解释吗?

任何帮助表示赞赏。

1个回答

您无法计算条件分布,因为该分布是在整个人口中定义的,并假设您不知道一个概率模型。

在现实生活中,您只有一个总体样本。通常,在现实生活中你也没有模型的结构。你不知道它是线性模型、多项式还是其他类型。

概率方法是假设一个模型,考虑该模型的一些假设并使用数据拟合模型的参数。那不是贝叶斯分类器,它只是一个近似值。

诀窍是“所有模型都是错误的,有些模型是有用的”。有很多方法可以学习这种近似。您可以估计联合概率(生成分类器),可以直接估计条件概率(判别分类器),或者您可以使用不同的方法(例如 SVM)并以某种方式扭曲它以逼近条件概率。但所有这些都是近似值。真正的贝叶斯分类器将仍然未知。

[后期编辑]

查看贝叶斯分类器的维基百科页面,它指出:“贝叶斯分类器是统计分类中的有用基准。”。我的观点是,这种说法是令人困惑的,如果不是完全错误的话。这可能与错误使用“贝叶斯分类器”来指定朴素贝叶斯分类器有关。如果在谷歌上搜索“贝叶斯分类器”,他会看到很多与朴素贝叶斯相关的资料。我个人不同意维基百科的说法。贝叶斯分类器是我们不知道的自然状态,但我们的目标是尽可能地近似。