机器算法验证 - 你能用外行的术语解释 Parzen 窗口（内核）密度估计吗？ - 吾爱随笔录

你能用外行的术语解释 Parzen 窗口（内核）密度估计吗？

机器算法验证密度函数内核平滑直觉密度估计

2022-02-01 16:12:40

Parzen 窗口密度估计被描述为

p (x) = \frac{1}{n} \sum_{i = 1}^{n} \frac{1}{h^{2}} ϕ (\frac{x_{i} - x}{h})

$p(x)=\frac{1}{n}\sum_{i=1}^{n} \frac{1}{h^2} \phi \left(\frac{x_i - x}{h} \right)$

其中是向量中的元素数，是向量，是 x 的概率密度 hParzen 窗口的维数，是窗口函数。 $n$ $x$ $p(x)$ $x$ $h$ $\phi$

我的问题是：

Parzen 窗口函数与其他密度函数（如高斯函数等）之间的基本区别是什么？
窗函数 (的密度中的作用是什么？ $\phi$ $x$
为什么我们可以插入其他密度函数来代替窗口函数？
在求的密度中的作用是什么？ $h$ $x$

2个回答

Parzen 窗口密度估计是核密度估计的另一个名称。它是一种从数据中估计连续密度函数的非参数方法。

想象一下，您有一些数据点来自常见的未知分布，可能是连续分布。您有兴趣根据您的数据估计分布。您可以做的一件事是简单地查看经验分布并将其视为与真实分布等效的样本。但是，如果您的数据是连续的，那么您很可能会看到每个 $x_1,\dots,x_n$ $f$ $x_i$ 点在数据集中只出现一次，因此基于此，您会得出结论，您的数据来自均匀分布，因为每个值具有相等的概率。希望您可以做得更好：您可以将数据打包在一些等间距的间隔中，并计算落入每个间隔的值。这种方法将基于估计直方图。不幸的是，对于直方图，您最终会得到一些 bin，而不是连续分布，所以它只是一个粗略的近似值。

核密度估计是第三种选择。主要思想是您通过连续分布（使用您的符号）的混合，称为kernels，它们以数据点为中心并且规模（带宽）等于： $f$ $K$ $\phi$ $x_i$ $h$

\hat{f_{h}} (x) = \frac{1}{n h} \sum_{i = 1}^{n} K (\frac{x - x_{i}}{h})

$\hat{f_h}(x) = \frac{1}{nh} \sum_{i=1}^n K\Big(\frac{x-x_i}{h}\Big)$

如下图所示，其中正态分布用作核的不同值用于估计给定七个数据点的分布（由图顶部的彩色线条标记）。图上的彩色密度是以点为中心的内核。请注意，是一个相对参数，始终根据您的数据选择它的值，并且相同的值可能不会为不同的数据集提供相似的结果。 $K$ $h$ $x_i$ $h$ $h$

Kernel可以认为是一个概率密度函数，它需要积分为一。它还需要是对称的，以便并且随后以零为中心。维基百科关于内核的文章列出了许多流行的内核，例如高斯（正态分布）、Epanechnikov、矩形（均匀分布）等。基本上任何满足这些要求的分布都可以用作内核。 $K$ $K(x) = K(-x)$

显然，最终估计将取决于您选择的内核（但不是那么多）和带宽参数。以下线程如何解释内核密度估计中的带宽值？更详细地描述了带宽参数的使用。 $h$

用简单的英语说，你在这里假设的是观察点只是一个样本，并且遵循一些分布来估计。由于分布是连续的，我们假设在点的近邻域（邻域由参数定义）周围存在一些未知但非零的密度，我们使用内核来解释它。某个邻域中的点越多，该区域周围积累的密度就越大，因此的整体密度就越高。得到的函数现在可以对任意点求值 $x_i$ $f$ $x_i$ $h$ $K$ $\hat{f_h}$ $\hat{f_h}$ $x$ （不带下标）来获得它的密度估计，这就是我们获得函数的方式，它是未知密度函数的近似值。 $\hat{f_h}(x)$ $f(x)$

核密度的好处在于，与直方图不同，它们是连续函数，并且它们本身就是有效的概率密度，因为它们是有效概率密度的混合。在许多情况下，这是尽可能接近的近似值。 $f$

核密度与其他密度（作为正态分布）之间的区别在于“通常”密度是数学函数，而核密度是使用您的数据估计的真实密度的近似值，因此它们不是“独立”分布。

我会向您推荐 Silverman（1986 年）和 Wand 和 Jones（1995 年）关于这个主题的两本不错的介绍性书籍。

西尔弗曼，BW (1986)。用于统计和数据分析的密度估计。CRC/查普曼和霍尔。

Wand, MP 和 Jones, MC (1995)。内核平滑。伦敦：查普曼和霍尔/CRC。

1）我的理解是用户可以选择使用的功能 $\phi$ ，并且高斯函数是一个非常常见的选择。

2）密度在 $x$ 是不同值的平均值 $\phi_h(x_i - x)$ 在 $x$ . 例如，您可能有 $x_1=1$ , $x_2 = 2$ , 和高斯分布 $\sigma=1$ 为了 $\phi_h$ . 在这种情况下，密度为 $x$ 将会 $\frac{\mathcal{N}_{1, 1}(x) + \mathcal{N}_{2, 1}(x)}{2}$ .

3）您可以插入任何您喜欢的密度函数作为窗口函数。

4) $h$ 确定您选择的窗口函数的宽度。

其它你可能感兴趣的问题

上一篇神经网络比 SVM 更好吗？下一篇人类在收集或解释数据时最常见的偏见是什么？