考虑到我的特征集是分类的,即每个特征存在超过 2 个类别,我如何将朴素贝叶斯分类器(使用 sklearn)用于数据集。
- 我到处找,有些人使用 GaussianNB,即使数据是分类的 (1,2...8)
有些人建议将其转换为 One-Hot 编码,然后使用 BernoulliNB,这对我来说没有意义,因为这样新创建的特征将具有高度相关性,这与朴素贝叶斯的核心假设之一背道而驰。(例如颜色特征有 3 个值 - 蓝色、绿色、红色,我们从中创建 3 个特征;然后如果蓝色为 1,那么很明显红色和绿色将为 0。因此依赖)
有些人推荐使用 MultinomialNB,在我看来这没有意义,因为它认为特征值是频率计数。
有人可以指出我正确的方向吗?