单位球N个样本离原点最近点中位数公式的解释

机器算法验证 自习 证明 k-最近邻
2022-02-12 04:27:43

Elements of Statistical Learning中,引入了一个问题来突出 k-nn 在高维空间中的问题。个数据点均匀分布在一个维单元球中。Np

从原点到最近数据点的中位距离由以下表达式给出:

d(p,N)=(1(12)1N)1p

时,公式分解为球半径的一半,我可以看到最近的点如何接近边界,从而使 knn 背后的直觉在高维度上分解。但我不明白为什么这个公式依赖于 N。有人可以澄清一下吗?N=1p

此外,该书还通过说明:“......在训练样本的边缘附近进行预测要困难得多。必须从相邻样本点进行推断,而不是在它们之间进行插值”。这似乎是一个深刻的陈述,但我似乎无法理解它的含义。有人可以改写吗?

3个回答

半径为维超球的体积与成比例。prrp

所以距离原点超过krrp(kr)prp=1kp

所有个随机选择的点与原点的距离大于要获得到最近随机点的中值距离,请将此概率设置为所以Nkr(1kp)N12

(1kp)N=12
k=(1121/N)1/p.

直观地说,这是有一定道理的:随机点越多,您期望离原点最近的点越接近,因此您应该期望的递减函数。这里是 N 的减函数所以是 N 的增函数因此 as的递减函数个根。kN21/NN121/NN1121/NNp

现在不用挥手

  1. 对于任何 iid rv 序列, 其中是公共 CDF

    P(min1iNYi>y)=(1F(y))N,
    F

  2. 因此,如果我们有 的单位球中均匀分布其中是距离的公共 CDF,最后,中的单位球中的一个均匀分布点,是多少?该点位于单位半径球内半径为 r 的球内的概率等于体积比:NXip

    P(min1iN||Xi||>r)=(1F(r))N,
    F||Xi||,i=1,2,,NFRp

F(r)=P(||Xi||r)=Crp/(C1p)=rp

因此解决方案

1/2=P(min1iN||Xi||>r)=(1rp)N

r=(1(1/2)1/N)1/p.

还有您关于对样本量的依赖性的问题。对于固定,随着球填充的点越多,到原点的最小距离自然应该变小。Np

最后,你的交易量比例有问题。看起来应该是中单位球的体积。kRp

言简意赅:

我们想要找到球中个均匀分布的点中离原点最近的点的中位距离,该点位于维单位半径的原点处。由于统计独立性,的概率(称为这个量表达式 [1])是单个均匀分布点超过后者是一个减去单个均匀分布点小于的概率。后者是半径为的球的体积与单位半径的球的体积之比,即我们现在可以将表达式 [1] 写为NprNthrrrrp

P(min1iN||Xi||>r)=(1rp)N.

要找到距离最小值分布的中位数,将上述概率设置为并求解,得到答案。1/2r