真的与朴素贝叶斯分类器的特征混淆了吗?

数据挖掘 分类 数据挖掘 朴素贝叶斯分类器 贝叶斯 朴素贝叶斯算法
2022-02-24 11:51:23

朴素贝叶斯分类器具有以下特点:

  1. 它们对孤立的噪声点具有鲁棒性,因为在从数据中估计条件概率时,这些点被平均化了。朴素贝叶斯分类器还可以通过在模型构建和分类期间忽略示例来处理缺失值。

  2. 它们对不相关的属性具有鲁棒性。如果 X_i 是不相关的属性,则 P(X_i/Y) 变得几乎均匀分布。X_i 的类条件概率对后验概率的整体计算没有影响。

我几乎不明白这里所说的任何内容。这本书甚至没有提供示例,在线可用的大多数资源都是这本书的精确影印本。这些材料都没有深入研究这些事情并真正解释这一点。

你们能帮我在这里通过示例解释这意味着什么吗?我会很高兴的。很长一段时间以来,我一直在努力思考这个概念。我会很高兴有一些我也需要做的推荐阅读。

1个回答

在解释之前我只想指出,这些点只是关于NB分类的优点,也有缺点(特别是NB很容易过拟合)。

它们对孤立的噪声点具有鲁棒性,因为在从数据中估计条件概率时,这些点被平均化了。

“孤立噪声点”的特征值与大多数点有很大不同。由于根据定义,这样的点很少,它们的值在所有点的条件概率中的作用很小。

在我看来,这个论点有点可疑,因为孤立点也可能导致 NB 模型由于稀有特征值而过拟合(这适用于 Bernouilli NB,可能不适用于 Gaussian NB)。

朴素贝叶斯分类器还可以通过在模型构建和分类期间忽略示例来处理缺失值。

对于特定功能xi,如果某些实例没有此特征的值,仍然可以计算条件概率p(xi|Y)使用其他实例。有趣的是,该模型可以忽略不同特征的不同实例,这使得 NB 比其他方法更健壮(即灵活)。

它们对不相关的属性具有鲁棒性。如果 X_i 是一个不相关的属性,则 P(X_i/Y) 变得几乎均匀分布。X_i 的类条件概率对后验概率的整体计算没有影响。

“不相关特征”是一个无助于预测类别的特征,这意味着p(xi,Y)p(xi)p(Y)(变量接近独立)。这相当于p(xi|Y)p(xi),因此该特征的概率对于每个可能的类别都是相同的Y=yk所以它给每个班级同样的权重。

注意:我认为说P(Xi|Y)变得几乎均匀分布”至少是模棱两可的,因为通常p(a|b)表示变化值的分布a给定固定值b. 在我看来应该是:P(Xi|Y)变得几乎相同P(Xi).