预期预测误差 - 推导

机器算法验证 回归 预言 错误
2022-02-01 00:02:12

我正在努力理解预期预测误差的推导(ESL),特别是推导 2.11 和 2.12(调节,迈向逐点最小值的步骤)。非常感谢任何指针或链接。

下面我报告 ESL pg 的摘录。18. 前两个方程依次是方程 2.11 和 2.12。


$X \in \mathbb{R}^p$表示实值随机输入向量,$Y \in \mathbb{R}$表示实值随机输出变量,联合分布$\text{Pr}(X ,Y)$我们寻找一个函数$f(X)$来预测$Y$给定的输入$X$的值。该理论需要一个损失函数 $L(Y,f(X))$来惩罚预测中的错误,到目前为止,最常见和最方便的是平方误差损失$L(Y,f(X))=(Yf( X))^2$这导致我们选择$f$的标准,

$$ \begin{split} \text{EPE}(f) &= \text{E}(Y - f(X))^2\\ & = \int [y - f(x)]^2 \text {Pr}(dx, dy) \end{split} $$

预期的(平方)预测误差。通过以$X$ 为条件,我们可以将 EPE 写为

$$ \text{EPE}(f) = \text{E}_X \text{E}_{Y|X}([Yf(X)]^2|X) $$

我们看到,将 EPE 逐点最小化就足够了:

$$ f(x) = \text{argmin}_c \text{E}_{Y|X}([Yc]^2|X) $$

解决方案是

$$ f(x) = \text{E}(Y|X=x) $$

条件期望,也称为回归函数。

4个回答

\begin{align*} EPE(f) &= \int [y - f(x)]^2 Pr(dx, dy) \\ &= \int [y - f(x)]^2p(x,y )dxdy \\ &= \int_x \int_y [y - f(x)]^2p(x,y)dxdy \\ &= \int_x \int_y [y - f(x)]^2p(x)p(y |x)dxdy \\ &= \int_x\left( \int_y [y - f(x)]^2p(y|x)dy \right)p(x)dx \\ &= \int_x \left( E_{ Y|X}([Y - f(X)]^2|X = x) \right) p(x)dx\\ &= E_{X}E_{Y|X}([Y - f(X) ]^2| X = x) \end{对齐*}

等式 (2.11) 是以下小等式的结果。对于任意两个随机变量 $Z_1$ 和 $Z_2$,以及任意函数 $g$

$$ E_{Z_1, Z_2} (g(Z_1, Z_2)) = E_{Z_2}(E_{Z_1 \mid Z_2}(g(Z_1, Z_2) \mid Z_2)) $$

符号 $E_{Z_1, Z_2}$ 是联合分布的期望值。符号 $E_{Z_1 \mid Z_2}$ 本质上是说“对 $Z_1$ 的条件分布进行积分,就好像 $Z_2$ 是固定的一样”。

在 $Z_1$ 和 $Z_2$ 是离散随机变量的情况下,通过展开所涉及的定义很容易验证这一点

$$ \begin{align} E_{Z_2} & (E_{Z_1 \mid Z_2}(g(Z_1, Z_2) \mid Z_2)) \\ &= E_{Z_2} \left( \sum_{z_1} g( z_1, Z_2) Pr(Z_1 = z_1 \mid Z_2 ) \right) \\ &= \sum_{z_2} \left( \sum_{z_1} g(z_1, z_2) Pr(Z_1 = z_1 \mid Z_2 = z_2 ) \right) Pr(Z_2 = z_2) \\ &= \sum_{z_1, z_2} g(z_1, z_2) Pr(Z_1 = z_1 \mid Z_2 = z_2) Pr(Z_2 = z_2) \\ &= \sum_{ z_1, z_2} g(z_1, z_2) Pr(Z_1 = z_1, Z_2 = z_2 ) \\ &= E_{Z_1, Z_2} (g(Z_1, Z_2)) \end{align} $$

连续的情况可以被非正式地视为这个论点的限制,或者在所有测量理论的do-dads到位后正式验证。

要展开应用程序,请取 $Z_1 = Y$、$Z_2 = X$ 和 $g(x, y) = (y - f(x))^2$。一切都排得满满当当。

断言(2.12)要求我们考虑最小化

$$ E_X E_{Y \mid X} (Y - f(X))^2 $$

我们可以根据需要自由选择 $f$。再次,关注离散情况,并在上面展开中途下降,我们看到我们正在最小化

$$ \sum_{x} \left( \sum_{y} (y - f(x))^2 Pr(Y = y \mid X = x) \right) Pr(X = x) $$

大括号内的所有内容都是非负数,您可以通过单独最小化总和来最小化非负数的总和。在上下文中,这意味着我们可以选择 $f$ 来最小化

$$\sum_{y} (y - f(x))^2 Pr(Y = y \mid X = x)$$

分别为 $x$ 的每个离散值。这正是 ESL 所声称的内容,只是使用了更高级的符号。

我发现本书中的某些部分以一种难以理解的方式表达,尤其是对于那些没有深厚统计学背景的人。

我会尽量让它简单,希望你能摆脱困惑。

索赔 1(平滑) $E(X) = E(E(X|Y)),\forall X,Y$

证明:注意 E(Y) 是一个常数,但 E(Y|X) 是一个取决于 X 的随机变量。 \begin{align} E(E(X|Y)) &= \displaystyle\int E(X| Y=y) f_Y(y) dy \\ &= \int \int x f_{X|Y} (x|y) dx f_Y(y) dy \\ &= \int \int x f_{X|Y} (x|y) f_Y(y) dx dy \\ &= \int \int x f_{XY} (x,y) dx dy \\ &= \int x \left(\int f_{XY} (x, y) dy \right) dx \\ &= \int x f_X(x) dx = E(X) \end{align}

权利要求 2:$E(Y - f(X))^2 \geq E(Y - E(Y|X))^2, \forall f$

证明: \begin{align} E((Y - f(X))^2 | X) &= E( ([Y - E(Y|X)] + [E(Y|X) - f(X) ])^2|X) \\ &= E((YE(Y|X))^2 |X) + E((E(Y|X) - f(X))^2|X) + \\ &\qquad 2 E((Y - E(Y|X))(E(Y|X) - f(X))|X) \\ &=E((YE(Y|X))^2 |X ) + E((E(Y|X) - f(X))^2|X) + \\ &\qquad 2 (E(Y|X) - f(X)) E(Y - E(Y| X))|X) \\[5pt] &( \text{ 因为 } E(Y|X) - f(X) \text{ 是常数 } X) \\[5pt] &= E((YE( Y|X))^2 |X) + E((E(Y|X) - f(X))^2|X) \text{ ( 使用权利要求 1 }) \\ &\geq E((YE( Y|X))^2 |X) \end{对齐}

对上述等式两边取期望得到索赔 2 (QED)

因此,最优 f 为 $f(X) = E(Y|X)$

我发现教科书中的解释和这里的其他答案(以及回归函数推导中的混淆和回归函数的推导混淆)不足,所以我决定添加我自己的版本。我知道这本书的许多读者,这个网站不会有测度论的背景,但对我来说,它让一切变得更清楚。在我看来,作者遇到的一些困难来自于避免对他们论证的概率部分进行严格处理:

$X : \bigl(\Omega,\mathcal{F},\mathbb{P}\bigr) \to \bigl(\mathbf{R}^p,\mathcal{B}(\mathbf{R}^p )\bigr)$$Y : \bigl(\Omega,\mathcal{F},\mathbb{P}\bigr) \to \bigl(\mathbf{R},\mathcal{B}(\mathbf{R })\bigr)$是随机变量(它们没有必要不在同一个潜在的概率空间上,所以我们不妨这样做)。将预期预测误差定义为 $$ EPE(f) = \mathbb{E}\Bigl[ \bigl(Yf(X)\bigr)^2\Bigr]。$$


旁白:回想一下给定一些其他随机变量$Z : \bigl(\Omega,\mathcal{F},\mathbb{P}\bigr) \to \bigl(\mathbf{R},\mathcal{B}(\ mathbf{R})\bigr)$,我们有$\mathbb{E}(​​Z |X ) : \bigl(\Omega,\mathcal{F},\mathbb{P}\bigr) \to \bigl( \mathbf{R},\mathcal{B}(\mathbf{R})\bigr)$是形式为 $\omega \mapsto G(X(\omega))$ f 的随机变量。当我们写$\mathbb{E}(​​Z|X=x)$时,我们正在评估随机变量$\mathbb{E}(​​Z |X )$在某个$\omega \in \Omega$$X (\omega) = x$回想一下条件期望的定义意味着 $$ \mathbb{E}(​​Z) = \mathbb{E}\biggl( \mathbb{E}(​​Z |X ) \biggr)。$$ 另外:从严格的角度来看,实际上并不存在$\mathbb{E}_X$$\mathbb{E}_{Y|X}$这样的东西;这只是令人困惑:如果一切都在同一个概率空间上,那么“ $\mathbb{E}$ ”意味着“在概率空间上积分”,没有别的,每次。


所以 \begin{align} EPE(f) &= \mathbb{E}\Bigl[ \bigl(Yf(X)\bigr)^2\Bigr]\\ & = \mathbb{E}\biggl(\mathbb{ E}\Bigl[ \bigl(Yf(X)\bigr)^2\big| X \Bigr]\biggr)\\ &= \int_{\Omega} \mathbb{E}\Bigl[ \bigl(Yf( X)\大)^2\大| X\Bigr] d\mathbb{P}(\omega) \end{align} 通过上面我们的$Z = \bigl(Yf(X)\bigr)^2$,我们可以看到这里的被积函数是形式为 $G(X(\omega))$,即我们可以将其写为$\int_{\Omega} G(X(\omega)) d\mathbb{P}(\omega)$并且 - 使用$X$的定律$\mu_X$的定义- 这等于$\int_{\mathbf{R}^p} G(x) d\mu_X(x)$这当然清楚地表明选择$f$这可以最小化 EPE,您应该将被积函数逐点最小化为$x$的函数。所以让我们尝试这样做:通过线性和“取出已知的东西”(即$f(X)$$\sigma(X)$ -measurable 的事实): \begin{align*} \mathbb{E }\Bigl[ \bigl(Yf(X)\bigr)^2\big| X\Bigr] &= \mathbb{E}\bigl[ Y^2 | X\bigr] - 2\mathbb{E}\bigl[ Y f(X) | X\bigr] + \mathbb{E}\bigl[ f(X)^2 | X\bigr] \\ &= \mathbb{E}\bigl[ Y^2 | X\bigr] - 2f(X)\mathbb{E}\bigl[ Y | X\bigr] + f(X)^2 \\ &= \mathbb{E}\bigl[ Y^2 | X\bigr] - \mathbb{E}\bigl[ Y | X\bigr]^2 + \biggl(f(X) - \mathbb{E}\bigl[ Y | X\bigr] \biggr)^2 \end{align*} 那么当我们在某个$\ omega \in \Omega $$X(\omega) = x$,我们得到 $$ \mathbb{E}\Bigl[ \bigl(Yf(X)\bigr)^2\big| X=x\Bigr] = \mathbb{E}\bigl[ Y^2 | X=x\bigr] - \mathbb{E}\bigl[ Y | X=x\bigr]^2 + \biggl(f(x) - \mathbb{E}\bigl[ Y | X=x\bigr] \biggr)^2, $$ 我们可以看到$最小化这个表达式的f(x)$$f(x) = \mathbb{E}\bigl[ Y | X=x\bigr]$,即所谓的“回归函数”