机器算法验证 - 通俗地说，为什么朴素贝叶斯是用于文本分类的主要算法？ - 吾爱随笔录

机器算法验证机器学习分类文本挖掘朴素贝叶斯

2022-04-21 11:40:15

虽然我意识到选择“正确”算法可能会因手头的任务而异，但我很好奇为什么朴素贝叶斯经常用于垃圾邮件分类或情绪分析等事情。

尖叫的数据集中有什么赠品：“对我使用朴素贝叶斯！”？

1个回答

我相信朴素贝叶斯在这里的受欢迎程度，因为语言处理不是我的专长：

NB 有用的一个原因是偏差-方差权衡。垃圾邮件/情绪类型的数据通常是嘈杂的，并且通常是高维的（预测变量多于样本， $n \ll p$ ）。预测变量相互独立的天真假设是一个强有力的、高偏差的假设。

通过假设预测变量的独立性，我们说我们模型的协方差矩阵在对角线上只有非零条目。由于估计协方差结构 $n \ll p$ 情况非常困难确实，我们通常被迫对问题施加一些限制。独立性假设是一个特别强的约束，可以产生一个高度可解释的模型。引入的偏差可能会充分减少方差，从而获得更好的预测。

其它你可能感兴趣的问题