拉普拉斯平滑和狄利克雷先验

机器算法验证 贝叶斯 平滑 狄利克雷分布 拉普拉斯平滑
2022-03-25 06:15:56

在拉普拉斯平滑(或加法平滑)的维基百科文章中,据说从贝叶斯的角度来看,

这对应于后验分布的期望值,使用带有参数的对称 Dirichlet 分布α作为先决条件。

我很困惑这到底是怎么回事。有人可以帮我理解这两件事是如何等价的吗?

谢谢!

2个回答

当然。这本质上是 Dirichlet 分布是多项分布的共轭先验的观察结果。这意味着它们具有相同的功能形式。文章中提到了它,但我只想强调这是从多项抽样模型中得出的。所以,开始吧……

观察是关于后验的,所以我们介绍一些数据,x,这是计数K不同的项目。我们观察N=i=1Kxi样本总数。我们假设x来自未知分布π(我们将在其上放置一个Dir(α)之前在K-单纯形)。

的后验概率π给定α和数据x

p(π|x,α)=p(x|π)p(π|α)

可能性,p(x|π), 是多项分布。现在让我们写出pdf:

p(x|π)=N!x1!xk!π1x1πkxk

p(π|α)=1B(α)i=1Kπiα1

在哪里B(α)=Γ(α)KΓ(Kα). 相乘,我们发现,

p(π|α,x)=p(x|π)p(π|α)i=1Kπixi+α1.

换句话说,后验也是狄利克雷。问题是关于后验平均值。由于后验是狄利克雷,我们可以应用狄利克雷均值的公式来找到,

E[πi|α,x]=xi+αN+Kα.

希望这可以帮助!

作为旁注,我还想在上述推导中添加另一点,这与主要问题无关。然而,谈到多项分布的狄利克雷先验,我认为值得一提的是,如果我们将概率作为讨厌的变量,似然函数的形式是什么。

正如 sydeulissie 正确指出的那样,p(π|α,x)正比于i=1Kπixi+α1. 现在在这里我想计算p(x|α).

p(x|α)=i=1Kp(x|πi,α)p(π|α)dπ1dπ2...dπK

使用伽马函数的积分恒等式,我们有:

p(x|α)=Γ(Kα)Γ(N+Kα)i=1KΓ(xi+α)Γ(α)

上述对分类数据的可能性推导提出了一种更稳健的方法来处理样本大小的情况下的这些数据N还不够大。