朴素贝叶斯算法是否受到数据中异常值的影响?假设有一个数据集,在应用朴素贝叶斯之前是否需要去除异常值?
异常值对朴素贝叶斯的影响
数据挖掘
朴素贝叶斯分类器
离群值
贝叶斯
2021-10-05 03:49:58
2个回答
朴素贝叶斯有不同的风格,所以答案在某种程度上取决于用例。
异常值的一个潜在问题是看不见的观察结果可能导致概率为 0。例如,应用于单词特征的伯努利朴素贝叶斯在遇到训练数据中没有出现的单词时总是会产生 0 概率。从这个意义上说,异常值可能是一个问题。然而,所有这些和朴素贝叶斯的类似问题都有众所周知的解决方案(如拉普拉斯平滑,即为每个单词添加人工计数)并定期实施。
在高斯朴素贝叶斯中,异常值会影响高斯分布的形状,并对均值等产生通常的影响。
因此,根据您的用例,删除异常值仍然有意义。
是的,异常值会影响朴素贝叶斯。如果测试数据中出现的一个词在训练中没有出现,那么该词在特定类中的概率为零。而且我们知道在朴素贝叶斯中,我们将位于该特定类中的单词的概率相乘并且结果为零..这导致错误的结果,所以这就是我们在朴素贝叶斯中进行拉普拉斯平滑的原因..您还可以从删除对分类没有贡献的异常值的文本。
其它你可能感兴趣的问题