我想弄清楚哪种分布最适合我的数据。
这是我的数据的直方图:
我使用fitdistrplus
R 中的包来尝试找到最适合我的数据的包。为了了解适合哪种家庭分布,我这样做了:
library(fitdistrplus)
descdist(my_data, discrete=FALSE, boot=500)
我得到了这个偏度峰度图:
使用这些汇总统计信息:
最小值:23 最大值:1989
中值:184
平均值:228.8346
估计 sd:165.6273
估计偏度:1.706379
估计峰度:11.31023
因此,显然没有分布是数据的良好候选者。如何解读这个情节?这是否意味着我的数据是多个分布的混合?
编辑 :
该分布代表从实验中获得的 DNA 片段长度。我的目标是能够通过模拟生成的片段来模拟这个实验的结果。(即,模拟片段由基因组中相隔距离 D 的两个位置定义)。我假设从真实实验中观察到的片段长度分布可以用密度函数或密度组合来描述。我正在寻找最好的函数,我可以从中对 D 的值进行采样以进行模拟。
需要注意的是,我只使用一个子样本来拟合分布。我们生成数百万个片段。我处理 500.000 个片段的子样本。