我有两个与朴素贝叶斯相关的概念相关问题。
朴素贝叶斯对不相关的特征具有鲁棒性。这是什么意思?谁能举个例子,不相关的特征是如何抵消的,什么是不相关的特征?
如果独立性假设成立,则它是最优的。任何人都可以举一个独立假设不成立的例子吗?我认为这与句子中出现香港、英国等词有关。
问候, 阿克希特·巴蒂亚
我有两个与朴素贝叶斯相关的概念相关问题。
朴素贝叶斯对不相关的特征具有鲁棒性。这是什么意思?谁能举个例子,不相关的特征是如何抵消的,什么是不相关的特征?
如果独立性假设成立,则它是最优的。任何人都可以举一个独立假设不成立的例子吗?我认为这与句子中出现香港、英国等词有关。
问候, 阿克希特·巴蒂亚
朴素贝叶斯对不相关的特征具有鲁棒性。这是什么意思?谁能举个例子,不相关的特征是如何抵消的,什么是不相关的特征?
想象一个用于情感分析的分类器。对于一个非常积极的词,比如, 条件概率会很高,而将会非常低,所以后对于一个文件包含这个词很可能远高于.
现在中性词会发生什么? 两者都不或者将比另一个高得多。因此,在所有其他条件相同的情况下,与其他更相关的词(例如“伟大”)相比,两个后验概率之间的差异不会很大程度上取决于这个词。
如果独立性假设成立,则它是最优的。任何人都可以举一个独立假设不成立的例子吗?我认为这与句子中出现香港、英国等词有关。
在实践中,独立性假设几乎从不适用于真实数据。例如,文本中的单词实际上是相互依赖的,这就是它们在句子中的意义所在。这对于像“Hong Kong”这样的实体是正确的,对于几乎任何句子也是如此。例如,“我喜欢巧克力,但你讨厌它”并不意味着“你喜欢巧克力,但我讨厌它”,或者“你讨厌巧克力,但你讨厌它”,这没有任何意义。NB 将以相同的方式处理所有这些变体:基本上,模型假定独立性是为了使事情更简单、更容易计算,事实证明,尽管进行了大量简化,但它总体上工作得很好。