从(少数)数据点估计连续分布的 PDF

机器算法验证 数据可视化 密度函数
2022-03-28 07:41:42

的样本,有哪些好的、已建立的方法可用于估计连续分布的概率密度函数(从这里开始表示为我主要需要 PDF 用于绘图目的。f(x)x1,,xn

天真的方法是使用直方图,即计算有多少点落入不同区间。但这有几个问题:[a,b)

  • 它没有给我们,而是,这是不一样的,并且在绘图上可能看起来质量不同(例如,对于帕累托分布它给出的 PDF 估计值在对数对数尺度上不是一条直线,这就是我通过看起来质量不同的意思)。f(a+b2)abf(x)dx
  • 它在很大程度上取决于分箱,需要仔细选择分箱大小。
  • 根据分布,可能需要手动选择不均匀的 bin 大小才能获得合理的外观(例如,Pareto 分布需要增加 bin)。

我主要对已建立的方法感兴趣(请注意,我不是统计学家,我没有接受过这方面的正式培训,所以我可能不知道显而易见的方法!),但也欢迎任何想法。例如,通过对点进行排序来估计 CDF,然后以某种方式进行衍生工作?但随后问题转化为估计噪声数据的导数,这又是一个难题。

我需要这个主要不是为了使 PDF 适应某些功能,而是为了可视化它。

编辑:我对适用于长尾分布的技术特别感兴趣。

1个回答

您正在寻找的是内核密度估计。您应该在 Internet 搜索中找到大量搜索这些术语的结果,甚至在Wikipedia上也可以找到这些结果,这样您就可以开始使用了。如果您有 R 在您的处置,该功能density提供您所需要的:

histAndDensity<-function(x, ...)
{
  retval<-hist(x, freq=FALSE, ...)
  lines(density(x, na.rm=TRUE), col="red")
  invisible(retval)
}