Parzen 和 k 最近邻

数据挖掘 机器学习
2021-10-14 17:17:58

我有这个密度估计公式。

pn(x)=kn/nVn

有人告诉我,使用 Parzen 窗口方法,您可以指定 Vn 作为一个函数 n. 因此,如果V 减少时 n 增加很明显,它是一个固定的音量。

我还被告知使用您指定的 knn 方法 kn 作为一个函数 n. 所以如果你增加为n 被提出,很明显,音量取决于音量。

parzen 和 knn

任何人都可以向我解释上述陈述。我认为 knn 和 Parzen 的工作原理对我来说有点清楚。(knn 计算k最近的邻居,在新样本中被分配给投票最多的类。在 Parzen 中,音量是固定的)。

我也看不懂图中的两个公式。该图说明了估计一个点的密度的两种方法x在每个正方形的中心。顶部 knn,底部 Parzen

1个回答

一个向量的概率x取自p(x)在某些地区R的样本空间由下式给出P=Rp(x)dx. 给定从分布中抽取的一组 N 个向量;很明显,这 N 个向量的概率 k 落在R是(谁)给的P(k)=(Nk)pk(1p)Nk. 根据二项式 pmf 的属性,该比率的均值和方差kNE[kN]=Pvar[kN]=P(1P)N. 因此,作为N分布变得更加明确,方差更小。因此,我们可以期望从落在该区域内的点的平均分数中获得对概率 P 的适当估计R. 因此PkN,

现在考虑如果该地区R很小,使得p(x)内变化不大,则Rp(x)dxp(x)V. 将此结果与上述结果相结合。我们看到p(x)kNV.

这就是您找到的公式的来源。因此,如果我们想改进p(x) 我们应该让 V 接近 0。然而,那么 R会变得如此之小,以至于我们找不到任何例子。因此,我们实际上只有两种选择。我们必须让 V 足够大才能在R 或小到足以使 p(x) 在 R.

基本方法包括使用 KDE(parzen 窗口)或 kNN。KDE 固定 V,而 kNN 固定 k。无论哪种方式,只要 V 随 N 缩小而 k 随 N 增长,两种方法都可以随着 N 的增加收敛到真实概率密度。

图片中使用的公式只是满足此要求的任意示例。