我正在努力理解预期预测误差的推导(ESL),特别是推导 2.11 和 2.12(调节,迈向逐点最小值的步骤)。非常感谢任何指针或链接。
下面我报告 ESL pg 的摘录。18. 前两个方程依次是方程 2.11 和 2.12。
令$X \in \mathbb{R}^p$表示实值随机输入向量,$Y \in \mathbb{R}$表示实值随机输出变量,联合分布$\text{Pr}(X ,Y)$。我们寻找一个函数$f(X)$来预测$Y$给定的输入$X$的值。该理论需要一个损失函数 $L(Y,f(X))$来惩罚预测中的错误,到目前为止,最常见和最方便的是平方误差损失:$L(Y,f(X))=(Yf( X))^2$。这导致我们选择$f$的标准,
$$ \begin{split} \text{EPE}(f) &= \text{E}(Y - f(X))^2\\ & = \int [y - f(x)]^2 \text {Pr}(dx, dy) \end{split} $$
预期的(平方)预测误差。通过以$X$ 为条件,我们可以将 EPE 写为
$$ \text{EPE}(f) = \text{E}_X \text{E}_{Y|X}([Yf(X)]^2|X) $$
我们看到,将 EPE 逐点最小化就足够了:
$$ f(x) = \text{argmin}_c \text{E}_{Y|X}([Yc]^2|X) $$
解决方案是
$$ f(x) = \text{E}(Y|X=x) $$
条件期望,也称为回归函数。