训练点与测试点原点的预期平方距离

机器算法验证 数理统计 预测模型 距离 预测器 高维
2022-03-30 19:43:52

这是来自统计学习要素的练习 2.4(第 39 页) :

第 23 页讨论的边缘效应问题并不是从有界域进行均匀采样所特有的。考虑从球形多正态分布中提取的输入。从任何样本点到原点的平方距离分布XN(0,Ip)χp2p

考虑从该分布中提取的预测点为关联的单位向量。z_i = a^Tx_i为每个训练点在该方向上的投影。x0a=x0x0zi=aTxi

证明zi分布为N(0,1),与原点 1 的预期平方距离为 1,而目标点与原点的预期平方距离为p

因此,对于p=10,随机抽取的测试点与原点的距离约为 3.1 个标准差,而所有训练点沿方向a平均为一个标准差。所以大多数预测点都认为自己位于训练集的边缘。

我了解这里所需的所有计算:

  • 一个χp2分布根据定义是k个独立标准法线的总和并且具有平均值k,并且平方部分负责欧几里得距离定义中的根
  • 法线的任何线性组合本身就是法线,并且方差为 1,因为投影的大小aT是 1
  • 当再次考虑从独立标准法线中提取的 10 维空间中的样本时,与该单一标准法线原点的平方距离的期望为 1,而与 10(或与\sqrt{10}原点的预期距离)相比。10

我不明白这是如何表明维度灾难或数据点随着维度数量的增加而向边缘漂移并远离其他点。为什么我们将一个点的单位向量投影到所有训练点上?

2个回答

Elements of Statistics 第 23 页的相关引述:“因此,大多数数据点比任何其他数据点更接近样本空间的边界。这会出现问题的原因是预测在边缘附近要困难得多训练样本。必须从相邻样本点进行推断,而不是在它们之间进行插值。

如果与原点的标准偏差 > 3,则意味着平均有 1% 以下的样本点将在方向上远离原点。因此,样本量必须非常大,以避免位于样本边缘的问题。x0x0x0

对于“为什么我们将一个点的单位向量投影到所有训练点上”这个问题,很容易弄清楚,因为当您进行预测时,邻居是从靠近预测点的训练数据中选择的单位向量投影是训练点到预测点的距离。所以你可以看到那个方向的训练数据比预测点的期望平方距离要近得多。所以大多数预测点都认为自己处于边缘。x0xix0