如何在不增加 kNN 偏差的情况下增加维度来增加方差?

机器算法验证 方差 偏见 k-最近邻
2022-04-07 09:03:54

我的问题是关于理解The Elements of Statistical Learning (2nd edition)中的图 2.8 。本节的主题是增加维度如何影响偏差/方差。

ESL中的图2.7我能大致看懂,但对2.8一窍不通。关于大致不变的偏差或主导方差的任何解释?我无法想象当维度增加时它们会如何变化。

以下是详细信息:

假设我们有 1000 个训练样例上均匀生成假设(变量的大写字母)之间的真实关系是 其中表示 X 的第一个分量总共p分量,换句话说, 特征)。我们使用 1-nearest-neighbor 规则在测试点处预测表示训练集我们可以计算xi[1,1]pXY

Y=F(X)=12(X1+1)3
X1XXpy0x0=0Tx0对于我们的程序,对大小为 1000 的所有此类样本进行平均。这是估计f(0)

MSE(x0)=ET[f(x0)y^0]2=ET[y^0ET(y^0)]2+[ET(y^0)f(x0)]2=VarT(y^0)+Bias2(y^0)

图如下。右图是(维度)增加的情况。p

ESL 中的图 2.8

2个回答

首先,分类器的偏差是其平均估计函数与真实函数之间的差异,而分类器的方差是估计的预测函数与其平均值的预期偏差(即分类器对随机抽样的依赖程度)在训练集中制作)。

因此,偏差的存在表明模型存在基本问题,而方差也很糟糕,但具有高方差的模型至少可以平均预测得很好。

理解生成图 2.7 和 2.8 的示例的关键是:

方差是由于 1-最近邻的抽样方差。在低维和时,最近邻非常接近,因此偏差和方差都很小。随着维度的增加,最近邻点往往会偏离目标点更远,并且会产生偏差和方差。通过,对于超过的样本,最近邻距原点的距离大于N=10000pp=1099%0.5

回想一下生成图 2.7 的示例的目标函数取决于个变量,因此 MSE 误差主要是由于偏差。p

相反,在图 2.8 中,示例的目标函数仅取决于变量,因此方差占主导地位。更一般地说,当您处理低维度时会发生这种情况。1

我希望这会有所帮助。

嗯,我不知道回答自己问的问题是否合适……但我想我有一个比较直观的答案,我只是想分享一下。

首先让我在图 2.7 中添加真正的函数进行比较: 而图 2.8 中的一个是

Y=f1(X)=e8||X||2
Y=f2(X)=12(X1+1)3

正如@stochazesthai 所说,2.7 的真正功能取决于所有组件,而 2.8 仅组件。另一方面,1-NN 算法涉及普通范数(默认情况下),因此距离由所有分量测量。另一件要提的是,期望被带到样本分布p1y^

现在考虑输入给定任何距离到原点的距离,当的值只有选择,即增加时,在任意固定距离下,的选择将急剧增加,其中第一个分量的值可以越来越自由地振荡。Xdp=12XddpXX1

然后考虑 1-NN。增加时,正如@stochazesthai 所引用的那样,原点最近的邻居很可能会远离,这意味着最小的会很大。p||X||

因此对于(其中),会增加很多,因此偏差会显着增加;但同时也会很大概率很大,所以方差不会增加太多。f1||X||E(y^0)py^0

另一方面,对于(仅),当增加时,正如我上面提到的,在相同的距离f2X1pX1ET(y^0) . 所以方差的增加将占主导地位,但是ET(y^0)本身不会有太大变化,因此与方差相比,偏差将大致保持不变。

希望它有点帮助。