机器算法验证 - 从（少数）数据点估计连续分布的 PDF - 吾爱随笔录

的样本，有哪些好的、已建立的方法可用于估计连续分布的概率密度函数（从这里开始表示为？我主要需要 PDF 用于绘图目的。 $f(x)$ $x_1, \ldots, x_n$

天真的方法是使用直方图，即计算有多少点落入不同区间。但这有几个问题： $[a,b)$

它没有给我们，而是，这是不一样的，并且在绘图上可能看起来质量不同（例如，对于帕累托分布它给出的 PDF 估计值在对数对数尺度上不是一条直线，这就是我通过看起来质量不同的意思）。 $f(\frac{a+b}{2})$ $\int_a^b f(x) \, dx$
它在很大程度上取决于分箱，需要仔细选择分箱大小。
根据分布，可能需要手动选择不均匀的 bin 大小才能获得合理的外观（例如，Pareto 分布需要增加 bin）。

我主要对已建立的方法感兴趣（请注意，我不是统计学家，我没有接受过这方面的正式培训，所以我可能不知道显而易见的方法！），但也欢迎任何想法。例如，通过对点进行排序来估计 CDF，然后以某种方式进行衍生工作？但随后问题转化为估计噪声数据的导数，这又是一个难题。

我需要这个主要不是为了使 PDF 适应某些功能，而是为了可视化它。

编辑：我对适用于长尾分布的技术特别感兴趣。