朴素贝叶斯分类中的 PDF 和概率

机器算法验证 可能性 朴素贝叶斯 密度函数
2022-04-18 20:21:21

我见过几次在朴素贝叶斯中使用高斯 PDF 来处理连续特征的技术。这里这里在第一个链接中说明:

在此处输入图像描述

这怎么可能?我总是知道 PDF 不是概率——因为 x 的任何精确值的概率为零。

2个回答

你是对的,声明是错误的。这应该是一种可能性:

L(cx=v)=12πσc2e(vμc)22σc2

可能性在这里适用,因为我们对一个点属于每个类的相对可能性感兴趣:

P(c=cx=v)=L(c=cx=v)ciL(c=cix=v).

如果您对冗长而严谨的解释感兴趣,请查看出去。总而言之,这一切都归结为积分近似。要从变量的连续概率密度函数 (PDF) 中获取特定变量值的概率,请在宽度 epsilon 的区间内围绕所讨论的值积分 PDF,并在 epsilon 接近 0 时取该积分的极限。对于小epsilon,这个积分将等价于 epsilon 和相关变量值处 PDF 高度的乘积。通常,当 epsilon 接近 0 时,此表达式的限制为 0。但是,正如 Neil 在他的回答中提到的,在朴素贝叶斯的情况下,我们对条件概率的比率感兴趣。因为我们的比率的分子和分母都包含一个 epsilon 因子,所以这些 epsilon 因子抵消了。因此,