机器算法验证 - 如何处理朴素贝叶斯分类器中看不见的特征？ - 吾爱随笔录 - 问答

如何处理朴素贝叶斯分类器中看不见的特征？

机器算法验证可能性自然语言朴素贝叶斯拉普拉斯平滑

2022-04-13 17:06:22

我正在为文本分类问题编写一个朴素的贝叶斯分类器。我有一堆单词和一个相关的标签：

[short,snippet,text], label1
[slightly,different,snippet,text], label2
...

我能够很好地训练朴素贝叶斯。但是，当我对看不见的数据进行分类时，有时会有看不见的特征（单词）。在这种情况下，朴素贝叶斯公式在给定特征的概率会发生什么？ $C$ $F_1,F_2,...$

P (C | F_{1}, F_{2}, . . .) = \frac{P (F_{1}, F_{2}, . . . | C) P (C)}{P (F_{1}, F_{2}, . . .)} = \frac{P (C) \prod_{i} P (F_{i} | C)}{P (F_{1}, F_{2}, . . .)}

$P(C|F_1,F_2,...) = \frac{P(F_1,F_2,...|C)P(C)}{P(F_1,F_2,...)} = \frac{P(C)\prod_{i}P(F_i|C)}{P(F_1,F_2,...)}$

假设特征从未出现在训练数据中，那么不是吗？ $F_k$ $P(F_k|C)=\frac{0}{0}$

这在分类问题中通常如何处理？

一种选择是简单地忽略看不见的功能。但是，我不想这样做，因为我正在尝试计算与类相关的实际概率分数。当有看不见的特征时，概率应该会受到影响，但我不确定如何在数学上做到这一点。

任何见解、研究文章的链接等都会有帮助！提前致谢。

1个回答

通常人们会使用拉普拉斯平滑，本质上是为每个类添加对每个特征的人工观察。这样做是为了避免从未观察到一个类中的特征导致传播为零的问题。这也称为统一先验。

对于在任何训练数据中从未见过的特征，“统一先验”意味着一切都将具有相同的概率（因此统一没有数据），因此它不会影响您选择的类别。

在为您的分类器做出决定方面，这将产生与丢弃新特征相同的结果！所以这就是你应该做的。从技术上讲，保留它会稍微改变概率，但朴素贝叶斯并没有给出好的概率，所以它不值得担心。

但是，我不想这样做，因为我正在尝试计算与类相关的实际概率分数。当有看不见的特征时，概率应该会受到影响，但我不确定如何在数学上做到这一点。

这是一个很好的直觉和正确的。但总的来说，当我们遇到未观察到的特征时，我们无能为力，因为我们本质上对它们一无所知！你真正能做的就是选择一个先前的信念，并在你没有数据时使用它。

如果您真的想要好的概率，请开始查看逻辑回归。它也不完美，但概率比朴素贝叶斯给你的要合理得多。

其它你可能感兴趣的问题

上一篇如何从 R 中拟合的 GEE 模型估计模型预测均值（又名边际均值、lsmeans 或 EM 均值）？下一篇预测变量在多元线性回归中的重要性