tl;dr:有两个常用的近似的公式,但一个明显优于另一个。既然它不是“标准的”泰勒展开式,它是从哪里来的,为什么它更好?var(f(X))
细节:设为实数随机变量,。有一种使用矩的泰勒展开、等。这样做会产生以下二阶近似:
Xf:R→Rvar(f(X))Ef(X)Ef2(X)var(f(X))≈[f′(EX)]2var(X)−[f′′(EX)]24var2(X):=V1.
有关正式证明,请参阅此帖子和答案。奇怪的是,这不是相应维基百科页面中引用的公式:
var(f(X))≈[f′(EX)]2var(X)+[f′′(EX)]22var2(X):=V2.
注意第二项系数的差异:与。−1/4+1/2
起初,我认为这是维基百科页面中的错字。然而,在运行一些快速模拟之后,似乎第二个近似值比好得多!(诚然,我没有进行详尽的测试,但经过几十个示例后,差异非常明显。)V2V1
事实上,这里是为什么经常发生灾难性失败的部分解释:如果,则。据推测,这可以通过使用三阶近似来纠正。V1f′(EX)≈0V1<0
不过,我的问题是(a) 我们如何推导出,以及 (b) 为什么它的表现优于?V2V1