数据挖掘 - 为什么词少的类有更高的概率？ - 吾爱随笔录

鉴于我有一个单词在我的任何文档中都没有出现：newword，并且我有两个类：class1和class2。例如，in 的总词数class1为 3，in 的总词数class2为 6，所有文档中的唯一词数为 8。

此外，给定朴素贝叶斯公式，该词newword将具有更高的归属概率class1（因为分母将较低而分子保持不变）。关于这种行为是否有任何统计/逻辑理论解释（驱动算法）？

简而言之，我只想知道给单词更少的类提供更高概率的动机是什么。

Ps.：我正在使用拉普拉斯平滑。因此：
P(newword|class1) = 0 + 1 / 3 + 8 = 0.09 >
P(newword|class2) = 0 + 1 / 6 + 8 = 0.07