的样本,有哪些好的、已建立的方法可用于估计连续分布的概率密度函数(从这里开始表示为?我主要需要 PDF 用于绘图目的。
天真的方法是使用直方图,即计算有多少点落入不同区间。但这有几个问题:
- 它没有给我们,而是,这是不一样的,并且在绘图上可能看起来质量不同(例如,对于帕累托分布它给出的 PDF 估计值在对数对数尺度上不是一条直线,这就是我通过看起来质量不同的意思)。
- 它在很大程度上取决于分箱,需要仔细选择分箱大小。
- 根据分布,可能需要手动选择不均匀的 bin 大小才能获得合理的外观(例如,Pareto 分布需要增加 bin)。
我主要对已建立的方法感兴趣(请注意,我不是统计学家,我没有接受过这方面的正式培训,所以我可能不知道显而易见的方法!),但也欢迎任何想法。例如,通过对点进行排序来估计 CDF,然后以某种方式进行衍生工作?但随后问题转化为估计噪声数据的导数,这又是一个难题。
我需要这个主要不是为了使 PDF 适应某些功能,而是为了可视化它。
编辑:我对适用于长尾分布的技术特别感兴趣。