这些点在朴素贝叶斯中意味着什么?

数据挖掘 机器学习 朴素贝叶斯分类器 分类器
2022-01-29 19:40:51

我有两个与朴素贝叶斯相关的概念相关问题。

朴素贝叶斯对不相关的特征具有鲁棒性。这是什么意思?谁能举个例子,不相关的特征是如何抵消的,什么是不相关的特征?

如果独立性假设成立,则它是最优的。任何人都可以举一个独立假设不成立的例子吗?我认为这与句子中出现香港、英国等词有关。

问候, 阿克希特·巴蒂亚

1个回答

朴素贝叶斯对不相关的特征具有鲁棒性。这是什么意思?谁能举个例子,不相关的特征是如何抵消的,什么是不相关的特征?

想象一个用于情感分析的分类器。对于一个非常积极的词,比如w=great, 条件概率p(w|pos)会很高,而p(w|neg)将会非常低,所以后p(pos|d)对于一个文件d包含这个词很可能远高于p(neg|d).

现在中性词会发生什么w=today? 两者都不p(w|pos)或者p(w|neg)将比另一个高得多。因此,在所有其他条件相同的情况下,与其他更相关的词(例如“伟大”)相比,两个后验概率之间的差异不会很大程度上取决于这个词。

如果独立性假设成立,则它是最优的。任何人都可以举一个独立假设不成立的例子吗?我认为这与句子中出现香港、英国等词有关。

在实践中,独立性假设几乎从不适用于真实数据。例如,文本中的单词实际上是相互依赖的,这就是它们在句子中的意义所在。这对于像“Hong Kong”这样的实体是正确的,对于几乎任何句子也是如此。例如,“我喜欢巧克力,但你讨厌它”并不意味着“你喜欢巧克力,但我讨厌它”,或者“你讨厌巧克力,但你讨厌它”,这没有任何意义。NB 将以相同的方式处理所有这些变体:基本上,模型假定独立性是为了使事情更简单、更容易计算,事实证明,尽管进行了大量简化,但它总体上工作得很好。