在分类模型中,理想的情况是在训练数据集中均匀地表示分类类别。满足此属性的数据集称为平衡数据集。
然而,在朴素贝叶斯分类模型中,分类器被定义为最大化后验概率的优化问题:
argmax_C P(C|F1,...,Fn) = P(C) Sum_i(P(F_i|C))
哪里F_i是特征,哪里是C类(在这个等式中,已经应用了朴素假设)。
但是,如果我们尝试获得具有均匀表示的类别的平衡数据集,那么P(C)(先验)的估计对于所有类别都是相同的 ,因此,我们可以在我们最大化时C摆脱,因为它对于所有类别都是相同的P(C).
此外,通过考虑均匀表示的类别,我们将改变类别的实际分布。
我的问题是:我们真的有兴趣这样做吗,或者我们是否想在我们的分类模型中捕捉到某些类比其他类更有可能的事实(保持数据集不平衡)?