在解释之前我只想指出,这些点只是关于NB分类的优点,也有缺点(特别是NB很容易过拟合)。
它们对孤立的噪声点具有鲁棒性,因为在从数据中估计条件概率时,这些点被平均化了。
“孤立噪声点”的特征值与大多数点有很大不同。由于根据定义,这样的点很少,它们的值在所有点的条件概率中的作用很小。
在我看来,这个论点有点可疑,因为孤立点也可能导致 NB 模型由于稀有特征值而过拟合(这适用于 Bernouilli NB,可能不适用于 Gaussian NB)。
朴素贝叶斯分类器还可以通过在模型构建和分类期间忽略示例来处理缺失值。
对于特定功能xi,如果某些实例没有此特征的值,仍然可以计算条件概率p(xi|Y)使用其他实例。有趣的是,该模型可以忽略不同特征的不同实例,这使得 NB 比其他方法更健壮(即灵活)。
它们对不相关的属性具有鲁棒性。如果 X_i 是一个不相关的属性,则 P(X_i/Y) 变得几乎均匀分布。X_i 的类条件概率对后验概率的整体计算没有影响。
“不相关特征”是一个无助于预测类别的特征,这意味着p(xi,Y)≈p(xi)p(Y)(变量接近独立)。这相当于p(xi|Y)≈p(xi),因此该特征的概率对于每个可能的类别都是相同的Y=yk所以它给每个班级同样的权重。
注意:我认为说“P(Xi|Y)变得几乎均匀分布”至少是模棱两可的,因为通常p(a|b)表示变化值的分布a给定固定值b. 在我看来应该是:P(Xi|Y)变得几乎相同P(Xi).