这是来自统计学习要素的练习 2.4(第 39 页) :
第 23 页讨论的边缘效应问题并不是从有界域进行均匀采样所特有的。考虑从球形多正态分布中提取的输入。从任何样本点到原点的平方距离分布。
考虑从该分布中提取的预测点为关联的单位向量。令z_i = a^Tx_i为每个训练点在该方向上的投影。
证明分布为,与原点 1 的预期平方距离为 1,而目标点与原点的预期平方距离为。
因此,对于,随机抽取的测试点与原点的距离约为 3.1 个标准差,而所有训练点沿方向平均为一个标准差。所以大多数预测点都认为自己位于训练集的边缘。
我了解这里所需的所有计算:
- 一个分布根据定义是个独立标准法线的总和并且具有平均值,并且平方部分负责欧几里得距离定义中的根
- 法线的任何线性组合本身就是法线,并且方差为 1,因为投影的大小是 1
- 当再次考虑从独立标准法线中提取的 10 维空间中的样本时,与该单一标准法线原点的平方距离的期望为 1,而与 10(或与\sqrt{10}原点的预期距离)相比。
我不明白这是如何表明维度灾难或数据点随着维度数量的增加而向边缘漂移并远离其他点。为什么我们将一个点的单位向量投影到所有训练点上?