机器算法验证 - 理解不同的蒙特卡洛近似符号 - 吾爱随笔录

理解不同的蒙特卡洛近似符号

机器算法验证可能性数理统计蒙特卡洛

2022-04-10 07:05:59

目前正在从事一个涉及蒙特卡洛积分的项目。我之前没有对这种方法进行过任何研究，因此提出了以下问题。

考虑以下期望：

E [f (X)] = \int_{A} f (x) g (x) d x .

$E[f(X)]=\int_A f(x)g(x)dx.$

令是一个随机变量，取中的值。设是的概率密度，而是一个函数，使得上述期望是有限的。 $X$ $A\subseteq\mathbb{R}^n$ $g:A\to\mathbb{R}_+$ $X$ $f:A\to\mathbb{R}$

如果是概率密度为的独立随机变量，则根据大数定律， $X_1,X_2,...X_N$ $g$

\frac{1}{N} \sum_{i = 1}^{N} f (X_{i}) \to E [f (X)] as N \to \infty .

$\frac{1}{N} \sum_{i=1}^N f(X_i) \to E[f(X)] \quad \text{as N} \to \infty.$

据我了解，上面的总和是积分的一般蒙特卡罗近似。

上述近似值是否对 pdf 做出任何假设，即均匀性和归一化？如果它是一般近似值，它应该适用于任何 pdf，但我见过不同的近似值，例如和，其中前表示 pdf 上的定积分。这些是如何相关和派生的？ $V\frac{1}{N}\sum_{i=1}^N f(X_i)$ $\frac{1}{N}\sum_{i=1}^N \frac{f(X_i)}{g(X_i)}$ $V$

2个回答

是的，您提供的公式应该收敛到给定无限样本点问题是您不想无限等待。因此，一个更有趣的问题是，在有限数量的样本下，它是否可能收敛到接近真实值的值。而这里的答案取决于在空间中的分布。对于在感兴趣的域上或多或少均匀中的大部分内容都集中在一个小区域中，尤其是在更高维度上，那么基本 MC 是完全不可行的。这个问题其实在现实生活中比较频繁， $g(x)$ $f(x)$ $f(x)$ $f(x)$ $f(x)$ 是一个狭窄的多维高斯分布。在包含该高斯的立方体上进行 MC 采样在高维中是一个非常糟糕的主意。

为了解决这个问题，人们设计了很多方法来“在重要的地方采样”。其中最简单的是所谓的重要性抽样。这个想法是您对可能如何分布有先验知识，并使用和该先验分布之间的某种折衷进行采样，但是您还必须更正结果答案以调整您的没有从精确采样。这是您提供的最后一个公式。中间的公式我没见过。 $f(x)$ $g(x)$ $g(x)$

最后，重要性抽样取决于先验。即使在没有先验的情况下，也可以通过自适应地找到先验分布来比基本 MC 做得更好。然而，这是一个积极研究的开放问题。

因此，总而言之，MC 有多个公式，它们都适用于任意和，但收敛速度不同，因此在特定场景中更好或更差 $f(x)$ $g(x)$

在概率方面，蒙特卡洛方法（或其证明）被称为大数定律。收敛的独立同分布性和期望的存在之外，不假设任何东西。

\begin{matrix} (1) & \frac{1}{N} \sum_{i = 1}^{N} f (X_{i}) \overset{a.s.}{\to} E_{g} [f (X)] \end{matrix}

$\frac{1}{N} \sum_{i=1}^N f(X_i) \stackrel{\text{a.s.}}{\to} \mathbb E_g[f(X)]\tag{1}$

X_{i}

$X_i$

收敛的更精确表征需要对的进一步性质。例如，如果方差存在（在第一维中）的维数是多少，无论蒙特卡洛方法是什么，它变为零的速度都恰好是 $(f,g)$ $N$

{var}_{g} (f (X))

$\text{var}_g(f(X))$

O (\sqrt{N})

$\text{O}(\sqrt{N})$

X

$X$

问题的第二部分暗示了其他形式的蒙特卡洛近似。它们是积分不可识别的结果，它可以同样写成用于支持包括的任意密度（即上的正数）。由于缺乏可识别性，的选择大多是自由的，h 的最优选择是因为它实现了最小方差。当 $(f,g)$

I = \int_{A} f (x) g (x) d x

$\mathfrak I=\int_A f(x)g(x)\text{d}x$

I = \int_{A} \frac{f (x) g (x)}{h (x)} h (x) d x

$\mathfrak I=\int_A \frac{f(x)g(x)}{h(x)} h(x)\text{d}x$

h

$h$

A

$A$

A

$A$

h

$h$

h

$h$

h^{⋆} (x) = \frac{| f (x) | g (x)}{\int_{A} | f (x) | g (x) d x}

$h^\star(x) = \dfrac{|f(x)|g(x)}{\int_A |f(x)|g(x)\text{d}x}$

f

$f$ 上是非负的（或非正的）。显然，在实践中，这个的选择是不可用的，但它解释了为什么从模拟很少是最佳选择。

A

$A$

h

$h$

g

$g$

其它你可能感兴趣的问题

上一篇统计帮助：差异之间的差异？下一篇使用“多级”和“lme4”R包的嵌套数据的多级回归模型？