机器算法验证 - 评估朴素贝叶斯的问题 - 吾爱随笔录

评估朴素贝叶斯的问题

机器算法验证贝叶斯分类朴素贝叶斯

2022-04-03 09:24:27

我试图了解朴素贝叶斯及其在文本分类中的应用。我有一个疑问，或者这可能是我的误解。

假设我们有两个类别“新闻”和“体育”，我们需要在其中对任何给定文档进行分类。让字典只包含 3 个关键字，参数如下 ${news,football,tennis}$

\begin{aligned} P (n e w s / N e w s) & = 0.99, P (n e w s / S p o r t s) = 0.01, P (t e n n i s / S p o r t s) = 0.9, \\ P (t e n n i s / N e w s) & = 0.1, P (f o o t b a l l / S p o r t s) = 0.9, P (f o o t b a l l / N e w s) = 0.1, \\ P (S p o r t s) & = 0.5, P (N e w s) = 0.5, P ((n e w s, f o o t b a l l, t e n n i s)) = k; \end{aligned}

$\begin{align*} P(news/News)&=0.99,P(news/Sports)=0.01,P(tennis/Sports)=0.9,\\ P(tennis/News)&=0.1,P(football/Sports)=0.9,P(football/News)=0.1, \\ P(Sports)&=0.5 ,P(News)=0.5,P((news,football,tennis))=k; \end{align*}$

我们得到一个包含所有三个关键字的文档。所以当我们评估

\begin{aligned} P (N e w s / (n e w s, f o o t b a l l, t e n n i s)) = 0.99 \cdot 0.1 \cdot 0.1 \cdot 0.5 / k = 0.00495 / k \\ P (S p o r t s / (n e w s, f o o t b a l l, t e n n i s)) = 0.01 \cdot 0.9 \cdot 0.9 \cdot 0.5 / k = 0.00405 / k \end{aligned}

$\begin{align} P(News/(news,football,tennis))=0.99\cdot0.1\cdot0.1\cdot0.5/k=0.00495/k\\ P(Sports/(news,football,tennis))=0.01\cdot0.9\cdot0.9\cdot0.5/k=0.00405/k \end{align}$

所以文档被归类为“新闻”类别，但直观地我们知道它应该属于“体育”类别。

2个回答

好吧：朴素贝叶斯被称为朴素的原因是：假设的条件独立性通常是值得怀疑的，尽管事实证明它在许多实际情况下都很好用。

除此之外：你已经“选择”了你的条件概率，结果就是这样。P(tennis|News) 和 P(tennis|Sports) 总和为 1 没有（先验的）原因，但在这种情况下，这会导致违反直觉的结果。

顾名思义，朴素贝叶斯分类器是贝叶斯定理的简单应用。基本上，它根据观察到的数据计算感兴趣的数量（通常是未观察到的，称为参数或潜在类别）的概率。在您的情况下，观察到的数据是：新闻、足球和网球。您要计算概率的感兴趣的数量是：新闻和体育。似乎您对计算感兴趣：。 $P(\text{News}|\text{news}, \text{football}, \text{tennis}), P(\text{News}|\text{news}, \text{football}, \text{tennis})$

现在我们将使用贝叶斯定理得到：

P (News | news, football, tennis) = \frac{P (news, football, tennis | News) P (News)}{P (news, football, tennis)}

$P(\text{News}|\text{news}, \text{football}, \text{tennis}) = \frac{P(\text{news}, \text{football}, \text{tennis}|\text{News})P(\text{News})}{P(\text{news}, \text{football}, \text{tennis})}$ 分子中的第一项使用以下事实计算：你观察潜在类，即News，观察到的数据，即新闻、足球和网球的概率是独立的（这可能是一个有问题的假设，但答案取决于主题）。您可以使用该定律来计算独立事件的概率。

P (news, football, tennis | News) = P (news | News) P (football | News) P (tennis | News)

$P(\text{news}, \text{football}, \text{tennis}|\text{News})=P(\text{news}|\text{News})P( \text{football}|\text{News})P(\text{tennis}|\text{News})$

对 Sports 进行类似的处理，我们得到：

P (Sports | news, football, tennis) = \frac{P (news, football, tennis | Sports) P (Sports)}{P (news, football, tennis)}

$P(\text{Sports}|\text{news}, \text{football}, \text{tennis}) = \frac{P(\text{news}, \text{football}, \text{tennis}|\text{Sports})P(\text{Sports})}{P(\text{news}, \text{football}, \text{tennis})}$

P (news, football, tennis | Sports) = P (news | Sports) P (football | Sports) P (tennis | Sports)

$P(\text{news}, \text{football}, \text{tennis}|\text{Sports})=P(\text{news}|\text{Sports})P( \text{football}|\text{Sports})P(\text{tennis}|\text{Sports})$

这两种情况的分母都可以通过使用总概率定律来计算。

P (news, football, tennis) = P (news, football, tennis | News) P (News) + P (news, football, tennis | Sports) P (Sports)

$P(\text{news}, \text{football}, \text{tennis}) =P(\text{news}, \text{football}, \text{tennis}|\text{News})P(\text{News})+ P(\text{news}, \text{football}, \text{tennis}|\text{Sports})P(\text{Sports})$

我们现在在每种情况下只剩下一个概率，即分别为和。如果我们知道这些，就可以计算到现在的每一个概率。这可以根据先验知识确定，或者在您的情况下，它可能已经提供给您。 $P(\text{News})$ $P(\text{Sports})$

插入所有概率会给你感兴趣的概率。

特定类别的高概率值意味着观察到的文档属于该类别（新闻或体育）。但是，您如何决定“多高”，再次取决于主题和许多其他问题。

其它你可能感兴趣的问题

上一篇加权空间聚类下一篇是否有诸如“精度”和“召回”之类的正确性度量的通用术语？