我有一些数据,我正在尝试确定它的分布。我能得到的最接近的是倾斜的高斯分布,但我认为不是。数据本身由 130000 个点组成,并使用 Freedman–Diaconis 规则进行分类。
我还尝试了泊松、正态对数、伽马和卡方分布,它们具有正确的形状,但参数与数据不匹配。这是数据图:
黑色曲线是我能得到的最佳近似值——倾斜的高斯曲线,但是如果我尝试生成一组具有拟合结果的人工数据(使用 Mathematica's SkewNormalDistribution[...]
),它与原始数据集完全不匹配。
我在这里添加一些进一步的信息。此处显示的数据是从实验中获得的多个光谱的背景噪声。我想了解这种噪声的特性,以便在模拟中重现它。
为了做到这一点,我尝试将分布拟合到我在此处显示的直方图,以尝试确定此频谱噪声所采用的分布。如果我有一个成功的拟合,我可以使用提取的拟合参数来生成模拟数据。例如,对于倾斜正态分布,我可以提取、和,然后使用它们来生成我的模拟分布。
这是我快速制作的一个粗略的概率图(我对这类图的接触很少,所以无法做任何更聪明的事情):
我正在添加一些进一步的信息,因为数据的来源似乎是相关的。直方图中显示的数据来自某些 FFT 频谱的本底噪声幅度。记录数据的单位是,即我提取并乘以以进行拟合(通常更容易拟合缩放数据)。因此,我正在处理的电压处于范围内。因此,直方图中的一切都存在于和
我会期望这个分布是高斯白。这就是 Johnson-Nyquist 噪声(至少在我测量的范围内)。但显然不是。这里发生了一些事情,这就是我想知道分布的原因。它是与玻尔兹曼卷积的高斯吗?温度梯度可能但不太可能太陡峭。这是我的 FFT 频谱分析仪输入端某些滤波器的结果吗?我经常处理分布,但我从来没有遇到过这样的事情——所以我问统计专家!
所以我认为可能有必要从一开始就展示我正在处理的内容。在下图中,我们看到了 FFT 频谱:
这是一些瞬态数据的 FFT(我无权访问瞬态本身)。红点是峰值特征——出于这些讨论的目的,我从数据集中删除了这些,只取了蓝色圆圈。对于许多光谱,我对这些圆圈的分布很感兴趣。所以有一个被噪声的基础信号,但特征的线宽是如此之小(水平)我希望剩余的数据不会受到峰值特征的偏差。幅度数据最初以为单位进行了线性化。查看光谱已经可以看出它并不完全是白色的,但这就是我想了解分布的原因。
万一它在这里有帮助的是相同的数据,但保留其原始形式。这确实看起来像一个倾斜的正态分布,所以我想我总是可以从这个角度工作并将结果转换回我的线性单位以用于模拟。