包含不确定性的核密度估计

机器算法验证 不确定 克德 内核平滑
2022-03-16 09:26:16

在可视化一维数据时,通常使用核密度估计技术来解释选择不当的 bin 宽度。

当我的一维数据集具有测量不确定性时,是否有标准方法来整合这些信息?

例如(如果我的理解很幼稚,请原谅我)KDE 将高斯轮廓与观测值的 delta 函数进行卷积。这个高斯核在每个位置之间共享,但是可以改变有执行此操作的标准方法吗?我希望用宽内核来反映不确定的值。σ

我已经在 Python 中简单地实现了这一点,但我不知道执行此操作的标准方法或函数。这种技术有什么问题吗?我确实注意到它给出了一些看起来很奇怪的图表!例如

KDE 比较

在这种情况下,低值具有较大的不确定性,因此倾向于提供宽平坦的内核,而 KDE 会过度加权低(和不确定)值。

4个回答

改变宽度是有意义的,但不一定要将内核宽度与不确定性相匹配。

在处理观察结果基本上没有不确定性的随机变量时考虑带宽的目的(即您可以在哪里观察到它们足够接近精确) - 即使这样,kde 也不会使用零带宽,因为带宽与分布的可变性,而不是观察中的不确定性(即“观察间”变化,而不是“观察内”不确定性)。

你所拥有的本质上是额外的变异来源(在“没有观察到不确定性”的情况下),每次观察都不同。

因此,作为第一步,我会说“如果数据的不确定性为 0,我将使用的最小带宽是多少?” 然后创建一个新带宽,它是该带宽的平方和的平方根,以及您用于观察不确定性σi

看待问题的另一种方法是将每个观察视为一个小内核(就像您所做的那样,它将表示观察可能在哪里),但是卷积通常的(kde-)内核(通常是固定宽度,但不一定)与观察不确定性内核,然后进行组合密度估计。(我相信这实际上与我上面建议的结果相同。)

我将应用可变带宽内核密度估计器,例如用于反卷积内核密度估计的局部带宽选择器, 当已知测量误差分布时,尝试构建自适应窗口 KDE。您说您知道误差方差,因此这种方法应该适用于您的情况。这是另一篇关于污染样本的类似方法的论文:BOOTSTRAP BANDWIDTH SELECTION IN KERNEL DENSITY ESTIMATION FROM A CONTAMINATED SAMPLE

您可能希望查阅 David W. Scott,1992 年,Wiley 所著的“多元密度估计:理论、实践和可视化”中的第 6 章。

对于单变量情况 (pp 130-131),他推导出带宽选择的正常参考规则: 其中是沿您的维度的方差,是数据量,是带宽(您在问题中使用了,所以不要在我的符号中混淆它)。

h=(4/3)1/5σn1/5(6.17)
σnhσ

他使用的一般 KDE 表示法是: 其中是内核函数。

f^(x)=1nhi=1nK(xxih)
K()

实际上,我认为您提出的方法称为概率密度图(PDP),广泛用于地球科学,请参阅此处的论文: https ://www.sciencedirect.com/science/article/pii/S0009254112001878

但是,存在上述论文中提到的缺点。例如,如果测量的误差很小,最终得到的 PDF 中就会出现尖峰。但是也可以像 KDE 的方式一样平滑 PDP,就像@Glen_b♦ 提到的那样