机器算法验证 - 通过泰勒展开的“正确”方法变量( f( X) )var(f(X)) - 吾爱随笔录

通过泰勒展开的“正确”方法变量( f( X) )var(f(X))

机器算法验证方差估计近似点估计增量法

2022-03-22 11:24:44

tl;dr：有两个常用的近似的公式，但一个明显优于另一个。既然它不是“标准的”泰勒展开式，它是从哪里来的，为什么它更好？ $\text{var}(f(X))$

细节：设为实数随机变量，。有一种使用矩的泰勒展开、等。这样做会产生以下二阶近似: $X$ $f:\mathbb{R}\to\mathbb{R}$ $\text{var}(f(X))$ $E f(X)$ $E f^2(X)$

\begin{aligned} var (f (X)) \approx [f^{'} (E X)]^{2} var (X) - \frac{[f^{″} (E X)]^{2}}{4} {var}^{2} (X) := V_{1} . \end{aligned}

$\begin{align} \operatorname{var}(f(X))\approx [f'(EX)]^2\operatorname{var}(X)-\frac{[f''(EX)]^2}{4}\operatorname{var}^2(X) := V_1. \end{align}$

有关正式证明，请参阅此帖子和答案。奇怪的是，这不是相应维基百科页面中引用的公式：

\begin{aligned} var (f (X)) \approx [f^{'} (E X)]^{2} var (X) + \frac{[f^{″} (E X)]^{2}}{2} {var}^{2} (X) := V_{2} . \end{aligned}

$\begin{align} \operatorname{var}(f(X))\approx [f'(EX)]^2\operatorname{var}(X) + \frac{[f''(EX)]^2}{2}\operatorname{var}^2(X) := V_2. \end{align}$

注意第二项系数的差异：与。 $-1/4$ $+1/2$

起初，我认为这是维基百科页面中的错字。然而，在运行一些快速模拟之后，似乎第二个近似值比好得多！（诚然，我没有进行详尽的测试，但经过几十个示例后，差异非常明显。） $V_2$ $V_1$

事实上，这里是为什么经常发生灾难性失败的部分解释：如果，则。据推测，这可以通过使用三阶近似来纠正。 $V_1$ $f'(EX)\approx 0$ $V_1 < 0$

不过，我的问题是(a) 我们如何推导出，以及 (b) 为什么它的表现优于？ $V_2$ $V_1$

1个回答

我不能谈论第一个近似值的推导（这对我来说看起来是错误的）。的二阶泰勒近似获得的，用于基础分布居中、无偏斜和中峰的情况。在这种情况下，您有、和。使用您获得的泰勒近似的一般形式： $f$ $\mu=0$ $\gamma=0$ $\kappa=3$

\begin{aligned} V [f (X)] & \approx (f^{″} (μ)^{2} μ^{2} - f^{'} (μ) f^{″} (μ) μ + f^{'} (μ)^{2}) \cdot σ^{2} \\ - \frac{f^{″} (μ) (f^{'} (μ) + μ f^{″} (μ))}{2} \cdot γ σ^{3} + \frac{f^{″} (μ)^{2}}{4} \cdot (κ - 1) σ^{4} \\ = f^{'} (μ)^{2} \cdot σ^{2} + \frac{f^{″} (μ)^{2}}{2} \cdot σ^{4} . \end{aligned}

$\begin{equation} \begin{aligned} \mathbb{V}[f(X)] &\approx ( f''(\mu)^2 \mu^2 - f'(\mu)f''(\mu) \mu + f'(\mu)^2 ) \cdot \sigma^2 \\[6pt] &\quad - \frac{f''(\mu)(f'(\mu) + \mu f''(\mu))}{2} \cdot \gamma \sigma^3 + \frac{f''(\mu)^2}{4} \cdot (\kappa-1) \sigma^4 \\[6pt] &= f'(\mu)^2 \cdot \sigma^2 + \frac{f''(\mu)^2}{2} \cdot \sigma^4. \\[6pt] \end{aligned} \end{equation}$

第一个近似值对我来说看起来不正确，我没有看到任何证据表明它是“常见的公式”。对于任何假设的峰度水平，这个近似值不能从一般的二阶泰勒近似值推导出来，所以我发现它表现不佳并不奇怪。（它需要这不是一个有效的峰度值。）因此，我希望第二个近似值比第一个近似值执行得更好，除非可能在基础分布的峰态高度平坦的情况下。 $\kappa = 0$

其它你可能感兴趣的问题

上一篇为什么 PCA 在非线性问题上的表现通常与非线性模型相当？下一篇使用 GLMER 在混合效应模型中编码组级变量的正确语法