机器算法验证 - 密度估计是否有贝叶斯方法 - 吾爱随笔录 - 问答

密度估计是否有贝叶斯方法

机器算法验证贝叶斯密度函数非参数贝叶斯狄利克雷过程

2022-01-22 15:24:55

我有兴趣估计一个连续随机变量的密度 $X$ . 我学到的一种方法是使用核密度估计。

但现在我对贝叶斯方法感兴趣，如下所示。我最初认为 $X$ 服从分布 $F$ . 我拿 $n$ 的读数 $X$ . 有什么方法可以更新 $F$ 根据我的新读数？

我知道我听起来像是在自相矛盾：如果我只相信 $F$ 作为我之前的分布，那么任何数据都不应该说服我。然而，假设 $F$ 是 $Unif[0,1]$ 我的数据点就像 $(0.3, 0.5, 0.9, 1.7)$ . 看见 $1.7$ ，我显然不能坚持我的先前，但我应该如何更新它？

更新：根据评论中的建议，我开始研究 Dirichlet 过程。让我使用以下符号：

$G \sim DP(\alpha,H)\\ \theta_i | G \sim G\\ x_i | \theta_i \sim N(\theta_i,\sigma^2)$

在用这种语言构建我的原始问题之后，我想我对以下内容感兴趣： $\theta_{n+1} | x_1,...,x_n$ . 如何做到这一点？

在这组笔记（第2页）中，作者做了一个例子 $\theta_{n+1} | \theta_1,...,\theta_n$ （保利安瓮计划）。我不确定这是否相关。

更新2：我也想问（看到笔记后）：人们如何选择 $\alpha$ 为民主党？这似乎是一个随机的选择。另外，人们如何选择先验 $H$ 为DP？我应该只使用先验吗 $\theta$ 作为我之前的 $H$ ?

3个回答

由于您需要贝叶斯方法，因此您需要假设有关您要估计的事物的一些先验知识。这将是分布的形式。

现在，有一个问题是，这现在是对分布的分布。但是，如果您假设候选分布来自某个参数化的分布类别，则这没有问题。

例如，如果您想假设数据是具有未知均值但已知方差的高斯分布，那么您所需要的只是均值的先验。

未知参数的 MAP 估计（称之为 $\theta$ ) 可以通过假设所有观察/数据点在给定未知参数的情况下是条件独立的。那么，MAP估计为

$\hat{\theta} = \arg \max_\theta ( \text{Pr}[x_1,x_2,...,x_n,\theta] )$ ,

在哪里

$\text{Pr}[x_1,x_2,...,x_n,\theta] = \text{Pr}[x_1,x_2,...,x_n | \theta] \text{Pr}[\theta] = \text{Pr}[\theta] \prod_{i=1}^n \text{Pr}[x_i | \theta]$ 。

需要注意的是，先验概率和候选分布，随着接收到更多的数据点而产生简单的（封闭形式）更新。 $\text{Pr}[\theta]$ $\text{Pr}[x | \theta]$

出于密度估计的目的，您需要的不是

$\theta_{n+1}|x_{1},\ldots,x_{n}$ 。

注释中的公式指的是狄利克雷过程的预测分布。 $\theta_{n+1}|\theta_{1},\ldots,\theta_{n}$

对于密度估计，您实际上必须从预测分布中采样

π (d x_{n + 1} | x_{1}, \dots, x_{n})

$\pi(dx_{n+1}|x_{1},\ldots,x_{n})$

可以使用条件方法或边际方法从上述分布中进行采样。对于条件方法，请查看 Stephen Walker 的论文 [1]。对于边际方法，您应该查看 Radford Neal 论文 [2]。

对于 concnetration 参数， Mike West [3] 提出了一种在 MCMC 过程中进行推理的方法，包括的完整条件分布。如果您决定不更新 MCMC 过程中的浓度，您应该记住，如果您为它选择一个较大的值，那么从 Dirichlet 过程中提取的不同值的数量将大于不同值的数量当将使用一个小的数字时。 $\alpha$ $\alpha$ $\alpha$ $\alpha$

[1] SG，沃克（2006 年）。使用切片对 Dirichlet 混合模型进行采样。统计通信（模拟和计算）。

[2] RM, Neal (2000) 用于狄利克雷过程混合模型的马尔可夫链蒙特卡罗方法。计算和图形统计杂志。第 9 卷，第 2 期，第 249-265 页

[3] M.，韦斯特（1992 年）。Dirichlet 过程混合模型中的超参数估计。技术报告

有什么方法可以根据我的新读数更新 F 吗？

正是为此。这几乎是贝叶斯推理的主要思想。

$p(\theta | y) \propto p(y|\theta)p(\theta)$

是你的先验，你称之为。是贝叶斯所说的“可能性”，它是在给定某个 theta 值的情况下观察数据的概率。您只需将它们相乘并得到的所谓“后验”分布。这是您的“更新后的 F”。查看任何介绍贝叶斯统计书的第 1 章。 $p(\theta)$ $F$ $p(y|\theta)$ $\theta$

您不必摆脱（您的先前），您只需要意识到它不再是您的最佳猜测，因为您有数据来完善它。 $p(\theta)$

其它你可能感兴趣的问题

上一篇具有行和列长度约束的随机矩阵下一篇最先进的流式学习