估计数据概率分布的不同非参数方法

机器算法验证 估计 非参数 参考
2022-03-12 14:25:09

我有一些数据,并试图拟合一条平滑的曲线。但是,我不想在它或任何特定分布上强制执行太多先前的信念或太强的先入之见(除了我的问题的其余部分所暗示的那些)。

我只是想用一些平滑的曲线拟合它(或者对它可能来自的概率分布有一个很好的估计)。我知道的唯一方法是核密度估计(KDE)。我想知道,如果人们知道其他方法来估计这样的事情。我只是想要一个它们的列表,然后我可以自己研究找出我想使用哪些。

总是欢迎(并鼓励)提供任何链接或良好的参考资料(或直觉上哪些是好的)!

3个回答

您没有指定您在谈论连续随机变量,但由于您提到 KDE,我会假设您打算这样做。

拟合平滑密度的另外两种方法:

1)对数样条密度估计。这里用样条曲线拟合对数密度。

示例论文:

Kooperberg 和 Stone (1991),
“对数样条密度估计的研究”,计算
统计和数据分析12,327-347

Kooperberg在此处的“1991”下提供了指向他论文 pdf 的链接。

如果您使用 R,则有一个包由它生成的拟合示例在这里下面是那里数据集的日志的直方图,以及来自答案的对数样条和内核密度估计的再现:

日志数据的直方图

对数样条密度估计:

对数样条图

核密度估计:

核密度估计

2)有限混合模型这里选择了一些方便的分布族(在许多情况下是正态分布),并且假设密度是该族的几个不同成员的混合。请注意,核密度估计可以看作是这样的混合(对于高斯核,它们是高斯​​的混合)。

更一般地,这些可以通过 ML 或 EM 算法进行拟合,或者在某些情况下通过矩匹配进行拟合,尽管在特定情况下其他方法可能是可行的。

(有大量的 R 包可以进行各种形式的混合建模。)

在编辑中添加:

3)平均移位直方图
(实际上并不平滑,但对于您未说明的标准来说可能足够平滑):

)处计算一系列直方图,跨越一个 bin-origin,每次移动某个整数乍一看,这看起来像在 binwidth​​处完成的直方图,但要平滑得多。bb/kkb/k

例如,在 binwidth 1 处计算 4 个直方图,但偏移 +0,+0.25,+0.5,+0.75,然后在任何给定处平均高度。你最终会得到这样的结果:x

平均移位直方图

图取自这个答案正如我在那里所说,如果你达到那种程度的努力,你不妨进行核密度估计。

根据上述关于平滑度等假设的评论。您可以使用具有 Dirichlet 过程的混合模型进行贝叶斯非参数密度估计。

下图显示了从“老忠实”数据的二元正态 DP 混合模型的 MCMC 估计中恢复的概率密度等值线。根据在最后一个 MCMC 步骤中获得的聚类,这些点被着色为 IIRC。

在此处输入图像描述

Teh 2010提供了一些很好的背景。

一个流行的选择是随机森林(具体参见“决策森林:分类、回归、密度估计、流形学习和半监督学习的统一框架”的第五章

它详细描述了算法,并根据其他流行的选择(如 k-means、GMM 和 KDE)对其进行评估。随机森林在 R 和 scikit-learn 中实现。

随机森林是一种巧妙的袋装决策树。