机器算法验证 - 拉普拉斯平滑和狄利克雷先验 - 吾爱随笔录

拉普拉斯平滑和狄利克雷先验

机器算法验证贝叶斯平滑狄利克雷分布拉普拉斯平滑

2022-03-25 06:15:56

在拉普拉斯平滑（或加法平滑）的维基百科文章中，据说从贝叶斯的角度来看，

这对应于后验分布的期望值，使用带有参数的对称 Dirichlet 分布 $\alpha$ 作为先决条件。

我很困惑这到底是怎么回事。有人可以帮我理解这两件事是如何等价的吗？

谢谢！

2个回答

当然。这本质上是 Dirichlet 分布是多项分布的共轭先验的观察结果。这意味着它们具有相同的功能形式。文章中提到了它，但我只想强调这是从多项抽样模型中得出的。所以，开始吧……

观察是关于后验的，所以我们介绍一些数据， $x$ ，这是计数 $K$ 不同的项目。我们观察 $N = \sum_{i=1}^K x_i$ 样本总数。我们假设 $x$ 来自未知分布 $\pi$ （我们将在其上放置一个 $\mathrm{Dir}(\alpha)$ 之前在 $K$ -单纯形）。

的后验概率 $\pi$ 给定 $\alpha$ 和数据 $x$ 是

p (π | x, α) = p (x | π) p (π | α)

$p(\pi | x, \alpha) = p(x | \pi) p(\pi|\alpha)$

可能性， $p(x|\pi)$ , 是多项分布。现在让我们写出pdf：

p (x | π) = \frac{N!}{x_{1}! \dots x_{k}!} π_{1}^{x_{1}} \dots π_{k}^{x_{k}}

$p(x|\pi) = \frac{N!}{x_1!\cdots x_k!} \pi_1^{x_1} \cdots \pi_k^{x_k}$

和

p (π | α) = \frac{1}{B (α)} \prod_{i = 1}^{K} π_{i}^{α - 1}

$p(\pi|\alpha) = \frac{1}{\mathrm{B}(\alpha)} \prod_{i=1}^K \pi_i^{\alpha - 1}$

在哪里 $\mathrm{B}(\alpha) = \frac{\Gamma(\alpha)^K}{\Gamma(K\alpha)}$ . 相乘，我们发现，

p (π | α, x) = p (x | π) p (π | α) \propto \prod_{i = 1}^{K} π_{i}^{x_{i} + α - 1} .

$p(\pi|\alpha,x) = p(x | \pi) p(\pi|\alpha) \propto \prod_{i=1}^K \pi_i^{x_i + \alpha - 1}.$

换句话说，后验也是狄利克雷。问题是关于后验平均值。由于后验是狄利克雷，我们可以应用狄利克雷均值的公式来找到，

E [π_{i} | α, x] = \frac{x_{i} + α}{N + K α} .

$E[\pi_i | \alpha, x] = \frac{x_i + \alpha}{N + K\alpha}.$

希望这可以帮助！

作为旁注，我还想在上述推导中添加另一点，这与主要问题无关。然而，谈到多项分布的狄利克雷先验，我认为值得一提的是，如果我们将概率作为讨厌的变量，似然函数的形式是什么。

正如 sydeulissie 正确指出的那样， $p(\pi | \alpha, x)$ 正比于 $\prod_{i=1}^{K} \, \pi_i^{x_i+\alpha-1}$ . 现在在这里我想计算 $p(x|\alpha)$ .

p (x | α) = \int \prod_{i = 1}^{K} p (x | π_{i}, α) p (π | α) d π_{1} d π_{2} . . . d π_{K}

$\begin{equation} p(x | \alpha) = \int \prod_{i=1}^{K}p(x | \pi_i, \alpha)p(\pi|\alpha) \mathrm{d} \pi_1 \mathrm{d} \pi_2 ...\mathrm{d} \pi_K \end{equation}$

使用伽马函数的积分恒等式，我们有：

p (x | α) = \frac{Γ (K α)}{Γ (N + K α)} \prod_{i = 1}^{K} \frac{Γ (x_{i} + α)}{Γ (α)}

$\begin{equation} p(x|\alpha) = \frac{\Gamma(K\alpha)}{\Gamma(N + K\alpha)} \prod_{i=1}^{K} \frac{\Gamma(x_i + \alpha)}{\Gamma(\alpha)} \end{equation}$

上述对分类数据的可能性推导提出了一种更稳健的方法来处理样本大小的情况下的这些数据 $N$ 还不够大。

其它你可能感兴趣的问题

上一篇当我只有一个 PR 值时，如何形成 Precision-Recall 曲线？下一篇聚合下保留了哪些统计信息？