我有一些数据希望估计其边际分布。我真的不知道什么参数分布是合适的,所以计划对数据拟合一个非参数(可能是核)密度估计。
但是,有两个并发症
1) 数据的硬阈值为
2) 数据大多集中在零附近——可以公平地说,它是两种分布的混合,一种几乎是处的增量,另一种是带有长尾的严格正分布。
我知道一些处理 1) 的方法,但是我使用的简单方法(反射内核)导致接近零的结果不令人满意。我真的不知道该怎么做2)。
这类问题的最新技术是什么?也许是一个实现我可以尝试的东西的 R 包?
很高兴举一个数据示例,但我不确定最好的方法。让我知道,我可以编辑问题。
编辑:我尝试了对数样条的想法 - 删除和不删除零(我实际上删除了所有非常接近零的值,)。出于兴趣,不删除零的结果是:

并删除零:

看起来去掉零后,指数分布可能非常适合。