我正在使用朴素贝叶斯公式构建一个文本分类器。我还处于开发的早期阶段,但我已经看到我的技术存在问题,我想知道你们是否有想法可以帮助我解决这个问题。
我想要做的是对文本进行评分,以将它们从更有可能在 A 类中排序到不太可能。我只有一门课,我想找出其中包含文本的可能性。
问题是我只能得到接近于零的预测(例如 1,068E-12)。原因是大多数单词在 A 类中的概率低于 0.5。即使我有概率 > 0.5 的单词,这些概率离 1 更远,那么概率 <0.5 离 0 更远。
因此,当我选择概率离 0.05 最远的 N 个单词时,我通常只得到(或至少更多)概率 <0.5。因此,我使用的词(N)越多,概率越接近 0。
是否有一些优化可以帮助解决这个问题(现在我什至不删除停用词,但我打算这样做)?
或者贝叶斯分类器对我的问题来说不是一个糟糕的选择?