高斯朴素贝叶斯分类中的“学习”步骤是什么?

数据挖掘 机器学习 朴素贝叶斯分类器 高斯
2022-02-25 18:15:25

对于条件独立的特征,朴素贝叶斯分类给了我分类器 fi

Classifier(f):=argmaxkP(C=k)·i=1nP(fi|C=k)

对于类k我知道对于高斯朴素贝叶斯,我可以假设正态分布的特征,产生

Classifier(f):=argmaxkP(C=k)·i=1n1(2πσk,i)e((fiμk,i)22σk,i)

其中μk,i是类k和特征fi的平均值(与方差σk,i类似)。

但是整个过程中的“学习步骤”在哪里呢?

1个回答

我假设您在询问朴素贝叶斯 (NB) 背后的直觉。为了清楚起见,我只考虑分类特征。Gaussian NB 只是简单地将 NB 应用于数值特征(假设为正态分布)。

在训练期间,每个p(fi|Ck)都是通过计算与 C_k 相关联的所有其他可能特征值中特征值f_ifiC_k 相关联的Ck来计算的:Ck

  • 这是通过计算fiCk在所有实例中一起出现的频率来完成的这就是 NB 的概括方式:特征出现在特定类中的事实只是一个示例,但它在 A 类中出现的频率比 B 类更频繁的事实形成了一种模式。
  • 概率p(fi|Ck)fiCk中的重要性

在预测新实例的类时:

  • NB“权衡所有利弊”,通过组合与该实例对应的所有(在某种意义上,一些概率很低,一些高,因此他们的产品反映了“优点”和“缺点”指示的组合)。Ckp(fi|Ck)p(fi|Ck)
  • 但是,即使,也并不意味着类的强烈指示,因为这可能是因为类的频率低于类。中考虑了这一点,它对频繁类的重要性高于对稀有类的重要性(这是贝叶斯定理的基础)。p(fi|A)>p(fi|B)fiAABp(Ck)

最后两点展示了 NB 如何使用训练模型的“知识”来对任何未知实例进行预测。