最先进的技术:具有边界和数据聚集在零附近的非参数密度估计

机器算法验证 r 非参数 内核平滑
2022-03-22 02:11:50

我有一些数据希望估计其边际分布。我真的不知道什么参数分布是合适的,所以计划对数据拟合一个非参数(可能是核)密度估计。

但是,有两个并发症

1) 数据的硬阈值为0

2) 数据大多集中在零附近——可以公平地说,它是两种分布的混合,一种几乎是处的增量,另一种是带有长尾的严格正分布。0

我知道一些处理 1) 的方法,但是我使用的简单方法(反射内核)导致接近零的结果不令人满意。我真的不知道该怎么做2)。

这类问题的最新技术是什么?也许是一个实现我可以尝试的东西的 R 包?

很高兴举一个数据示例,但我不确定最好的方法。让我知道,我可以编辑问题。

编辑:我尝试了对数样条的想法 - 删除和不删除零(我实际上删除了所有非常接近零的值,)。出于兴趣,不删除零的结果是:<0.05

在此处输入图像描述

并删除零:

在此处输入图像描述

看起来去掉零后,指数分布可能非常适合。

1个回答

如果您知道数据的范围,则可以使用逆概率变换。在几个例子中,合身在视觉上看起来非常令人满意。在一篇清晰的论文[1]中更详细地解释了这种方法。我认为应该有一个 R 实现但我找不到它(也许你可以联系作者)。

该方法也可以适用于随机变量分布在[0,+)

[1] G. Geenens,单位区间核密度估计的 Probit 变换。