在Elements of Statistical Learning中,引入了一个问题来突出 k-nn 在高维空间中的问题。有个数据点均匀分布在一个维单元球中。
从原点到最近数据点的中位距离由以下表达式给出:
当时,公式分解为球半径的一半,我可以看到最近的点如何接近边界,从而使 knn 背后的直觉在高维度上分解。但我不明白为什么这个公式依赖于 N。有人可以澄清一下吗?
此外,该书还通过说明:“......在训练样本的边缘附近进行预测要困难得多。必须从相邻样本点进行推断,而不是在它们之间进行插值”。这似乎是一个深刻的陈述,但我似乎无法理解它的含义。有人可以改写吗?