了解卡伦和弗雷图

机器算法验证 r 分布 配件 分布识别
2022-03-13 09:56:24

我想弄清楚哪种分布最适合我的数据。

这是我的数据的直方图:

在此处输入图像描述

我使用fitdistrplusR 中的包来尝试找到最适合我的数据的包。为了了解适合哪种家庭分布,我这样做了:

library(fitdistrplus)
descdist(my_data, discrete=FALSE, boot=500)

我得到了这个偏度峰度图:

在此处输入图像描述

使用这些汇总统计信息:

最小值:23 最大值:1989
中值:184
平均值:228.8346
估计 sd:165.6273
估计偏度:1.706379
估计峰度:11.31023

因此,显然没有分布是数据的良好候选者。如何解读这个情节?这是否意味着我的数据是多个分布的混合?

编辑 :

该分布代表从实验中获得的 DNA 片段长度。我的目标是能够通过模拟生成的片段来模拟这个实验的结果。(即,模拟片段由基因组中相隔距离 D 的两个位置定义)。我假设从真实实验中观察到的片段长度分布可以用密度函数或密度组合来描述。我正在寻找最好的函数,我可以从中对 D 的值进行采样以进行模拟。

需要注意的是,我只使用一个子样本来拟合分布。我们生成数百万个片段。我处理 500.000 个片段的子样本。

2个回答

该图过去通常被称为皮尔逊图(它还有其他几个名称),尽管有时绘制的是偏度而不是正方形。它早在 Cullen 和 Frey 写下它之前就被使用了(他们在文本中明确承认了这一事实,尽管他们自己提到在 60 年代后期写的书中看到它仍然大大低估了它的年龄)。

这种图的目的是帮助确定合适的 Pearson 分布。

卡伦和弗雷版本的情节并没有在情节中显示所有皮尔逊家族;您无法从该图中看到偏度和峰度是否与 Pearson IV 或 VI 分布相对应,因为它们将分界线从图上移开(对应于移位和缩放的逆 Gamma)

通过变换(压缩和旋转)绘图以适合此处的绘图,结果证明它位于 Pearson IV 区域,但您可以从直方图中看到,偏度和峰度不足以总结分布 - 不Pearson IV 分布的形状是这样的;与该近似区域相对应的其他几个候选人也不是。

另一件需要注意的是,样本峰度往往会低估总体峰度,通过匹配第三个和第四个累积量进行选择通常不是选择模型的特别好的方法。

事实上,很可能没有一个简单的、常用的分布能很好地适应。您可能会得到足够的混合物(如您所建议的那样);我预计可能需要至少 4-5 个来自某个合适系列的组件。

然而,很少有应用程序真正需要识别这样的分布形式——你最好解释一下你将使用这样的分布来做什么,因为可能有比这更好的事情。

您的数据对我来说看起来像是一种混合:似乎有一个组件的平均片段长度为 100 nt,一个大约 200 nt,另一个平均片段长度大约 300 nt(您可以在直方图中看到“凹凸”)。

有什么关于图书馆是如何准备的可以解释为什么混合物中有不止一种成分的吗?

我会将 3 个高斯模型混合到数据中。我使用 R 包mixtools编辑:要检查拟合度,您可以尝试此功能:https ://rdrr.io/cran/AdaptGauss/man/Chi2testMixtures.html