我正在为文本分类问题编写一个朴素的贝叶斯分类器。我有一堆单词和一个相关的标签:
[short,snippet,text], label1
[slightly,different,snippet,text], label2
...
我能够很好地训练朴素贝叶斯。但是,当我对看不见的数据进行分类时,有时会有看不见的特征(单词)。在这种情况下,朴素贝叶斯公式在给定特征的概率会发生什么?
假设特征从未出现在训练数据中,那么不是吗?
这在分类问题中通常如何处理?
一种选择是简单地忽略看不见的功能。但是,我不想这样做,因为我正在尝试计算与类相关的实际概率分数。当有看不见的特征时,概率应该会受到影响,但我不确定如何在数学上做到这一点。
任何见解、研究文章的链接等都会有帮助!提前致谢。