样本误差和训练误差以及乐观的直觉有什么区别?

机器算法验证 方差 错误 偏见 直觉 样本内
2022-03-21 09:17:11

在第 7 章(第 228 页)的《统计学习要素》一书中,训练误差定义为:

err¯=1Ni=1NL(yi,f^(xi))

而样本内误差定义为

Errin=1Ni=1NEY0[L(Yi0,f^(xi))|τ]

Y0符号表示我们在每个训练点观察到 N 个新的响应值xi,i=1,2,...,N.

这似乎与训练误差完全相同,因为还计算了训练误差,即通过使用拟合估计计算训练集的响应f^(x). 我已经检查了这个这个概念的解释,但无法理解训练误差和样本内误差之间的区别,以及为什么乐观并不总是 0:

opErrinerr¯

那么错误如何Errinerr¯不同,在这种情况下对乐观的直观理解是什么?

此外,作者在声明中所说的“通常偏向下”是什么意思:

这通常是积极的,因为 err 通常作为预测误差的估计值向下偏斜。

同时描述乐观(统计学习的要素,第 229 页)

1个回答

Y0在此设置中具有随机部分,例如带有附加误差εN(0,σε2). 所以对于固定(x,y)T, 新的回应Y0到预测器x不需要与相应的训练响应相同y,因此期望EY0. “偏下”只是意味着err¯平均小于真实的预测误差。