机器算法验证 - 包含不确定性的核密度估计 - 吾爱随笔录

机器算法验证不确定克德内核平滑

2022-03-16 09:26:16

在可视化一维数据时，通常使用核密度估计技术来解释选择不当的 bin 宽度。

当我的一维数据集具有测量不确定性时，是否有标准方法来整合这些信息？

例如（如果我的理解很幼稚，请原谅我）KDE 将高斯轮廓与观测值的 delta 函数进行卷积。这个高斯核在每个位置之间共享，但是可以改变有执行此操作的标准方法吗？我希望用宽内核来反映不确定的值。 $\sigma$

我已经在 Python 中简单地实现了这一点，但我不知道执行此操作的标准方法或函数。这种技术有什么问题吗？我确实注意到它给出了一些看起来很奇怪的图表！例如

KDE 比较

在这种情况下，低值具有较大的不确定性，因此倾向于提供宽平坦的内核，而 KDE 会过度加权低（和不确定）值。

4个回答

改变宽度是有意义的，但不一定要将内核宽度与不确定性相匹配。

在处理观察结果基本上没有不确定性的随机变量时考虑带宽的目的（即您可以在哪里观察到它们足够接近精确） - 即使这样，kde 也不会使用零带宽，因为带宽与分布的可变性，而不是观察中的不确定性（即“观察间”变化，而不是“观察内”不确定性）。

你所拥有的本质上是额外的变异来源（在“没有观察到不确定性”的情况下），每次观察都不同。

因此，作为第一步，我会说“如果数据的不确定性为 0，我将使用的最小带宽是多少？” 然后创建一个新带宽，它是该带宽的平方和的平方根，以及您用于观察不确定性 $\sigma_i$

看待问题的另一种方法是将每个观察视为一个小内核（就像您所做的那样，它将表示观察可能在哪里），但是卷积通常的（kde-）内核（通常是固定宽度，但不一定）与观察不确定性内核，然后进行组合密度估计。（我相信这实际上与我上面建议的结果相同。）

我将应用可变带宽内核密度估计器，例如用于反卷积内核密度估计的局部带宽选择器，当已知测量误差分布时，尝试构建自适应窗口 KDE。您说您知道误差方差，因此这种方法应该适用于您的情况。这是另一篇关于污染样本的类似方法的论文：BOOTSTRAP BANDWIDTH SELECTION IN KERNEL DENSITY ESTIMATION FROM A CONTAMINATED SAMPLE

您可能希望查阅 David W. Scott，1992 年，Wiley 所著的“多元密度估计：理论、实践和可视化”中的第 6 章。

对于单变量情况 (pp 130-131)，他推导出带宽选择的正常参考规则：其中是沿您的维度的方差，是数据量，是带宽（您在问题中使用了，所以不要在我的符号中混淆它）。

h = (4 / 3)^{1 / 5} σ n^{1 / 5} (6.17)

$h = (4/3)^{1/5}\sigma n^{1/5} \qquad (6.17)$

σ

$\sigma$

n

$n$

h

$h$

σ

$\sigma$

他使用的一般 KDE 表示法是：其中是内核函数。

\hat{f} (x) = \frac{1}{n h} \sum_{i = 1}^{n} K (\frac{x - x_{i}}{h})

$\hat{f}(x) = \frac{1}{nh} \sum_{i=1}^n K\left(\frac{x-x_i}{h}\right)$

K (\cdot)

$K(\cdot)$

实际上，我认为您提出的方法称为概率密度图（PDP），广泛用于地球科学，请参阅此处的论文： https ://www.sciencedirect.com/science/article/pii/S0009254112001878

但是，存在上述论文中提到的缺点。例如，如果测量的误差很小，最终得到的 PDF 中就会出现尖峰。但是也可以像 KDE 的方式一样平滑 PDP，就像@Glen_b♦ 提到的那样

其它你可能感兴趣的问题