在经历了一些稍微简洁的数学之后,我想我对核密度估计有了一点直觉。但我也知道,就估计量的统计特性而言,估计三个以上变量的多元密度可能不是一个好主意。
那么,在什么样的情况下,我应该使用非参数方法来估计二元密度?是否值得开始担心对两个以上的变量进行估计?
如果您可以指出一些有关多元密度估计应用的有用链接,那就太好了。
在经历了一些稍微简洁的数学之后,我想我对核密度估计有了一点直觉。但我也知道,就估计量的统计特性而言,估计三个以上变量的多元密度可能不是一个好主意。
那么,在什么样的情况下,我应该使用非参数方法来估计二元密度?是否值得开始担心对两个以上的变量进行估计?
如果您可以指出一些有关多元密度估计应用的有用链接,那就太好了。
密度估计应用的一个典型案例是新奇检测,也就是离群值检测,其想法是您只有(或大部分)拥有一种类型的数据,但您对非常罕见的、定性的不同数据感兴趣,这些数据显着偏离那些常见的情况。
例如欺诈检测、系统故障检测等。在这些情况下,收集您感兴趣的类型的数据非常困难和/或昂贵。这些罕见的情况,即发生概率低的情况。
大多数时候,您对准确估计确切分布不感兴趣,而是对相对几率(给定样本成为实际异常值与不是异常值的可能性有多大)感兴趣。
关于这个主题有几十个教程和评论。这可能是一个很好的开始。
编辑:对于某些人来说,使用密度估计进行异常值检测似乎很奇怪。让我们首先就一件事达成一致:当有人将混合模型拟合到他的数据时,他实际上是在进行密度估计。混合模型表示概率分布。
kNN 和 GMM 实际上是相关的:它们是估计这种概率密度的两种方法。这是许多新颖性检测方法的基本思想。例如,这个基于 kNN,另一个基于 Parzen 窗口(在本文开头强调了这个想法),还有许多其他的。
在我看来(但这只是我个人的看法)大多数(如果不是全部)都在这个想法上工作。你会如何表达异常/罕见事件的想法?
我猜想mean-shift 算法(http://en.wikipedia.org/wiki/Mean-shift)是kde 高效和合适应用的一个很好的例子。该算法的目的是定位给定数据的密度函数的最大值从该密度函数中采样,它完全基于 kde 建模:
通常,KDE 被吹捧为直方图的替代品。在这种情况下,KDE 相对于直方图的主要优势是减轻任意选择的参数对过程视觉输出的影响。特别是(如上面的链接所示),KDE 不需要用户指定起点和终点。