识别以下分布

机器算法验证 分布 分布识别
2022-03-31 00:27:08

我有一个发行版,我最初认为它是 Rayleigh,但几乎可以肯定不是。在我考虑各种分布的卷积之前,例如 Rayleigh 与 Boltzmann 卷积、Rayleigh 与 Gaussian 卷积等等,我希望有眼光的人能够识别它:

在此处输入图像描述

我在上面绘制了带有 Rayleigh 的数据,以说明它有点相似,但显然这不是分布。


我被要求提供有关数据的更多信息。数据本身是来自频谱的拟合残差。残差的单位为dBVpk,其定义为dBVpk=10log10(Vpk2) .

我已将残差从dBVpk转换为Vpk2通过Vpk2=10dBVpk/10这就是直方图中显示的内容。

我最初假设一个瑞利,因为原始频谱是一个 FFT,它用实部和虚部(两者都是高斯分布)转换信号,并取 FFT 的绝对值,这正是瑞利的产生方式。


我将再次添加一些进一步的细节来概述我的动机。

我有一些 FFT 光谱,我知道它们的一般线形。我想了解线形顶部的噪声,所以我查看了拟合残差。这个想法是,如果我知道光谱的残差是如何分布的,我就可以将其添加到线形模型中以进行模拟。我不想以对数单位添加噪音,即dBVpk,最好在Vpk2中执行此操作。

我提供的数据是来自 64 个光谱的残差,每个光谱有 801 个残差点。

我当然可以只执行一个 KDE 并将其用于模拟,但很高兴了解此配置文件的来源。例如,如果一个在频域中具有平坦的白噪声,并将其转换为线性单位,这绝对是一个瑞利分布——因为信号的实部和虚部是高斯分布而出现的,并且总是取结果的绝对幅度FFT——瑞利!!

我想为这个案例找到一个类似的论证流程。

此处提供数据:https ://filebin.net/17y3un9vs1kh5cq0

2个回答

出于模拟目的,Weibull 分布可能运行良好。 请允许我解释原因并谈谈这些限制。

原始(未求幂)残差图立即向我暗示了 Weibull 分布。(想到这个系列的一个原因是它包括瑞利分布,它是具有形状参数的 Weibull 分布)该公式将取决于三个参数:形状参数加上比例和位置。检验这种分布假设的标准探索性技术是(分位数-分位数)概率图:绘制数据的分位数相对于参考分布的相同分位数的散点图。当这个散点图几乎是线性的时,数据与参考分布的区别仅在于单位的变化——缩放和中心化。2.

找到一个好的形状参数的一种探索方法是调整它,直到概率图看起来尽可能线性。 为了避免过多的工作,我使用了各种方法:仅来自第一个频谱的数据(最佳形状为);所有数据的等间距百分位数(最佳为);以及后者的方差加权版本(最佳为)。几乎没有什么可供选择的(它们都非常适合数据)。取中间值会产生左侧的概率图:6.35.634.99

数字

概率图在其整个范围内异常直,表明拟合良好。

中间图显示了叠加在直方图上的相应 Weibull 频率图。 它很好地跟踪了条形的峰值,也表明它非常适合。但是,相应的卡方检验表明有点不适合(基于长度的自由度为个箱从)。为了分析不适合的情况,我创建了John Tukey 发明的“根图”。这显示直方图密度的平方根相对于χ2=334.6, p=2×10151540.18.57.0拟合分布,从而大大放大了拟合上下数据分布的偏差。这是图中正确的情节。

要解释根图,请记住计数的平方根平均而言与其期望值相差不到一个单位。您可以看到根图中的大多数条形都是这种情况,证实了之前的良好拟合。然而,在这个图中,很明显,相对于 Weibull 拟合,与中间值(蓝色负条)相比,极端和中心(红色正条)的数据要多一些,这是一种系统的、近乎对称的模式。

从这个意义上说,威布尔描述并不完全充分:我们不应该得出结论,有一些潜在的物理定律可以解释残差的威布尔分布。Weibull 形状只是一种数学上的便利,可以很好地简洁地描述这些数据。(还有其他问题,例如每个频谱内残差的序列相关的可能性。存在一些相关性,但它仅延伸了几个滞后,因此不太可能对上述描述提出任何有意义的修改。)

那么,最终,是否使用 Weibull 分布来模拟残差(如果您愿意,可以取幂)取决于这些小但系统的偏差是否对在模拟中捕获很重要。

作为记录,此处显示的 Weibull 分布具有形状参数尺度参数并移动了 因为 Weibull 分布只是指数(即 Gamma)分布的幂变换, 和指数随机变量很容易获得作为由计算系统中的标准伪随机数生成器提供的统一变量的负对数,生成 Weibull 变量很容易且计算成本低。具体来说,让具有这种均匀分布,将(原始)残差模拟为5.63,11.85,10.95.(1)(0,1)U

X=(log(U))1/5.6311.8510.95.

为了说明这个过程,并作为解释前面数据图的参考,我以这种方式创建了一个与原始数据集大小相同的随机样本(值)并绘制了它的直方图,相同的 Weibull频率曲线,以及相应的根图。801×64

图 2

典型的条形高度介于 0 和 1 之间——但这一次,条形高度似乎随机且独立地变化,而不是遵循数据根图中的系统模式。

Weibull 形状 = 2,比例 = 1,位置 = 0.2

我刚刚做了一个手工试衣,但威布尔看起来比你的瑞利好。