与更复杂的 ML 算法相比,为什么当特征数量 >> 样本大小时朴素贝叶斯效果更好?

机器算法验证 机器学习 支持向量机 自然语言 文本挖掘 朴素贝叶斯
2022-03-29 19:09:15

根据这篇文章

由于类独立性假设,与更复杂的方法相比,朴素贝叶斯分类器可以快速学会使用有限训练数据的高维特征。这在数据集与特征数量(例如图像或文本)相比较小的情况下非常有用。

为什么与更复杂的 ML 算法相比,当特征数量 >> 样本大小时,朴素贝叶斯效果很好?

1个回答

作者的意思是,朴素贝叶斯隐含地将所有特征视为彼此独立,因此在处理高维数据时通常会出现的各种维度灾难问题并不适用。

如果您的数据有k维度,然后尝试学习这些特征之间所有可能的相关性的完全通用的 ML 算法必须处理2k可能的特征交互,因此需要2k许多数据点是高性能的。然而,由于朴素贝叶斯假设特征之间是独立的,它只需要k许多数据点,呈指数级减少。

然而,这是以只能捕获输入变量和输出类之间更简单的映射为代价的,因此朴素贝叶斯永远无法与像在大型数据集上训练的大型神经网络这样的任务竞争图像识别,尽管它可能在非常小的数据集上表现更好。