我是核密度估计 (KDE) 的新手,但我想了解它以帮助我计算测序数据中结果的概率。我观看了这个https://www.youtube.com/watch?v=QSNN0no4dSI作为我对该主题的第一次介绍。
当讲师讨论不同的内核时,我意识到即使内核是通过带宽内的点进行局部参数化,KDE 也被认为是非参数化的,这让我感到困惑。
当内核为正态分布时,标准差和算术平均值不是KDE的参数吗?
我是核密度估计 (KDE) 的新手,但我想了解它以帮助我计算测序数据中结果的概率。我观看了这个https://www.youtube.com/watch?v=QSNN0no4dSI作为我对该主题的第一次介绍。
当讲师讨论不同的内核时,我意识到即使内核是通过带宽内的点进行局部参数化,KDE 也被认为是非参数化的,这让我感到困惑。
当内核为正态分布时,标准差和算术平均值不是KDE的参数吗?
多读一点,我看到了不同的定义,这些定义改变了我对非参数模型的看法。我认为非参数模型/分布必须完全没有参数,但有些人报告说非参数统计可能有也可能没有参数。非参数统计与参数统计的区别在于它们没有固定的或先验分布或模型结构。
为了回答这个问题,具有正态内核的 KDE 不假设生成的分布将具有特定的形状,也不假设模型结构(例如参数的数量)。因此,具有正常内核的 KDE 是非参数的。
也许这张照片有帮助。实际上,“参数”内核仅给出权重并且不会强烈影响(如@conjectures所说)密度估计的形状,因为不同的内核通常会产生非常相似的密度估计。
该示例显示了一些法线混合的 20 个紫色实现。灰色钟形曲线表示每个观测值对我们想要进行密度估计的点()产生的权重。的核密度估计简单地包括将该点的权重堆叠在一起。在图片中,我们看到在处,基本上只有两个观察值对该点的估计贡献了权重(从技术上讲,使用正常内核,所有权重都不为零,但随着正常尾部迅速衰减,权重很快变为微不足道)。这些权重是洋红色和绿色条。
橙色和红色曲线一致证实了这种构建 KDE 的手工方法只是重现了Rsdensity命令的作用。
KDE 是关于将密度函数拟合到数据。由于结果可能是一条任意曲线(来自某个大家族),因此它可以被认为是非参数的。
我不熟悉您链接的视频,但假设内核被用于拟合整体密度函数形状的某些局部部分。因此,核函数的参数影响但不决定主要由数据决定的整体密度函数的形状。将此与常规的正态密度函数进行对比,其中参数绝对决定密度的形状。