数据挖掘 - Parzen 和 k 最近邻 - 吾爱随笔录

Parzen 和 k 最近邻

数据挖掘机器学习

2021-10-14 17:17:58

我有这个密度估计公式。

p_{n} (x) = \frac{k_{n} / n}{V_{n}}

$p_n(x) = \frac{k_n / n}{V_n}$

有人告诉我，使用 Parzen 窗口方法，您可以指定 $V_n$ 作为一个函数 $n$ . 因此，如果 $V$ 减少时 $n$ 增加很明显，它是一个固定的音量。

我还被告知使用您指定的 knn 方法 $k_n$ 作为一个函数 $n$ . 所以如果你增加为 $n$ 被提出，很明显，音量取决于音量。

任何人都可以向我解释上述陈述。我认为 knn 和 Parzen 的工作原理对我来说有点清楚。（knn 计算 $k$ 最近的邻居，在新样本中被分配给投票最多的类。在 Parzen 中，音量是固定的）。

我也看不懂图中的两个公式。该图说明了估计一个点的密度的两种方法 $x$ 在每个正方形的中心。顶部 knn，底部 Parzen

1个回答

一个向量的概率 $x$ 取自 $p(x)$ 在某些地区 $R$ 的样本空间由下式给出 $P = \int_{R} p(x')dx'$ . 给定从分布中抽取的一组 N 个向量；很明显，这 N 个向量的概率 k 落在 $R$ 是（谁）给的 $P(k) = \binom{N}{k} p^{k} (1-p)^{N-k}$ . 根据二项式 pmf 的属性，该比率的均值和方差 $\frac{k}{N}$ 是 ${E}[\frac{k}{N}] = P$ 和 ${var}[\frac{k}{N}] = \frac{P(1-P)}{N}$ . 因此，作为 $N \rightarrow \infty$ 分布变得更加明确，方差更小。因此，我们可以期望从落在该区域内的点的平均分数中获得对概率 P 的适当估计 $R$ . 因此 $P \cong \frac{k}{N}$ ,

现在考虑如果该地区 $R$ 很小，使得 $p(x)$ 内变化不大，则 $\int_{R} p(x')dx' \cong p(x)V$ . 将此结果与上述结果相结合。我们看到 $p(x) \cong \frac{k}{NV}$ .

这就是您找到的公式的来源。因此，如果我们想改进 $p(x)$ 我们应该让 V 接近 0。然而，那么 $R$ 会变得如此之小，以至于我们找不到任何例子。因此，我们实际上只有两种选择。我们必须让 V 足够大才能在 $R$ 或小到足以使 p(x) 在 $R$ .

基本方法包括使用 KDE（parzen 窗口）或 kNN。KDE 固定 V，而 kNN 固定 k。无论哪种方式，只要 V 随 N 缩小而 k 随 N 增长，两种方法都可以随着 N 的增加收敛到真实概率密度。

图片中使用的公式只是满足此要求的任意示例。

其它你可能感兴趣的问题

上一篇训练集和测试集的特征缩放下一篇有没有办法为keras的一层中的每个隐藏单元设置不同的激活函数？