偏差-方差分解:预期平方预测误差减去不可约误差的项

机器算法验证 方差 预测 预言 术语 偏见
2022-03-03 02:20:59

哈斯蒂等人。"The Elements of Statistical Learning" (2009) 考虑了一个数据生成过程 ,其中

Y=f(X)+ε
E(ε)=0Var(ε)=σε2

他们在点(第 223 页,公式 7.9)处对预期平方预测误差进行了以下偏差方差分解: 在我的我自己的工作我没有指定而是采用任意预测代替(如果这是相关的)。问题:我正在寻找 或更准确地说 x0

Err(x0)=E([yf^(x0)]2|X=x0)==σε2+Bias2(f^(x0))+Var(f^(x0))=Irreducible error+Bias2+Variance.
f^()y^
Bias2+Variance
Err(x0)Irreducible error.

2个回答

我建议减少错误这也是Gareth, Witten, Hastie & Tibshirani, An Introduction to Statistical Learning的第 2.1.1 段中采用的术语,这本书基本上是 ESL 的简化 + 一些非常酷的 R 代码实验室(除了他们使用attach,但是,嘿,没有人是完美的)。我将在下面列出该术语的优缺点的原因。


首先,我们必须记住,我们不仅假设的均值为 0,而且还无关(参见第 2.6.1 段,ESL 的公式 2.29,第 2,第 12)。那么当然不能从估计,无论我们选择哪个假设类(模型族),以及我们使用多大的样本来学习我们的假设(估计我们的模型)。这就解释了为什么 被称为不可约误差ϵXϵXHσϵ2

可归约误差)似乎很自然现在,这个术语可能听起来有些混乱:事实上,在我们为数据生成过程所做的假设下,我们可以证明Err(x0)σϵ2

f(x)=E[Y|X=x]

因此,当且仅当(当然假设我们有一个一致的估计量)时,可约误差可以减少到零。如果,即使在无限样本大小的限制下,我们也无法将可约误差推至 0。然而,它仍然是我们误差中唯一可以通过改变样本大小、在我们的估计器中引入正则化(收缩)等来减少(如果不能消除)的部分。换句话说,通过选择另一个在我们的模型系列中。 E[Y|X=x]HE[Y|X=x]Hf^(x)

基本上,reducible不是指可以归零(糟糕!),而是指可以减少的那部分误差,即使不一定要任意小。另外,请注意,原则上这个误差可以通过扩大直到它包括来减少到 0 。相反,不能减少,无论有多大,因为HE[Y|X=x]σϵ2HϵX

在所有物理事件都已正确建模的系统中,剩下的将是噪声。然而,模型对数据的误差通常有更多的结构,而不仅仅是噪声。例如,仅建模偏差和噪声并不能解释曲线残差,即未建模的数据结构。无法解释的部分的总数是,它可能包括对物理的错误表述以及已知结构的偏差和噪声。如果通过偏差,我们仅指估计均值1R2y,“不可约误差”是指噪声,方差是指模型的系统物理误差,那么偏差(平方)和系统物理误差之和并不是什么特别的东西,它只是不是噪声的误差. 术语(平方)错误配准可能在特定上下文中用于此,见下文。如果您想说无关的错误,而不是nn的函数的错误,请说。恕我直言,这两个错误都不是不可约的,因此不可约性的误导性达到了令人困惑的程度,而不是阐明。

为什么我不喜欢“可还原性”这个词?它带有一种自我指涉的重言式的味道,就像在可还原性公理中一样。我同意Russell 1919的观点:“我看不出有任何理由相信可还原性公理在逻辑上是必然的,这就是说它在所有可能世界中都是正确的。将这个公理纳入一个因此,逻辑是一个缺陷……一个可疑的假设。”

以下是由于物理建模不完整而导致的结构化残差示例。这表示从普通最小二乘拟合缩放的伽马分布(即伽马变量 (GV))到肾小球过滤放射性药物 [ 1 ] 的放射性血浆样本的残差。请注意,丢弃的数据越多(),模型就越好,因此可简化性随着样本范围的增加而降低。n=36

在此处输入图像描述

值得注意的是,当一个人在 5 分钟内丢下第一个样本时,随着继续将早期样本丢到 60 分钟,物理性能会随着顺序的改进而提高。这表明尽管 GV 最终形成了药物血浆浓度的良好模型,但在早期还发生了其他事情。

事实上,如果对两种伽马分布进行卷积,一种用于早期药物的循环输送,另一种用于器官清除,这种类型的误差,即物理建模误差,可以减少到不到 [ 2 ]。接下来是该卷积的说明。1%

在此处输入图像描述

从后一个示例中,对于计数与时间图的平方根,y轴偏差是泊松噪声误差意义上的标准化偏差。这样的图是一个图像,其拟合误差是由于失真或翘曲造成的图像配准错误。在这种情况下,并且仅在这种情况下,配准错误是偏差加上建模误差,而总误差是配准错误加上噪声误差。