随机分布偏差背后的机制

机器算法验证 可能性 分布 数理统计 matlab
2022-04-02 12:09:29

我们正在研究的系统是生物学的,更具体地说是程序性 DNA 损伤事件在染色体上的分布。这可以被认为是一维阵列(染色体),可以在其中选择点(故意损坏的位置)。我们已经通过实验绘制了这些事件的位置,并最初询问它们是否符合随机分布——也就是说,损伤可以相同的机会发生在染色体上的任何一点,并且任何给定的损伤位点都是相互独立的。通过在 MATLAB (randi) 上生成随机分布,事实证明并非如此。

通过分析来自真实数据和建模数据的点间距离 (IPD),可以看到真实数据仅在低于特定 IPD 大小的情况下偏离随机分布,然后再重新加入其上方的随机分布,即更少比实际数据中偶然预期的更短的 IPD。

在此处输入图像描述

示例 IPD 结果:

在此处输入图像描述

Red = random modelled distribution
Blue = real data
Y-axis = IPD size (log-scale)
X-axis = IPD number (IPDs are just plotted in numerical order)

IPD 在这里绘制在对数 Y 轴上,并且只是按升序排列,就好像它是直方图一样。正如您在某个 IPD 尺寸(Y 轴)下方看到的那样,蓝线偏离红线。

我们正在测试的假设(具有良好的生物学基础)是一个事件的位置取决于已经形成的事件。具体来说,一旦选择了一个站点,它就会在其周围调用一个压制区域,从而使周围区域不太可能被选为下一个站点。这有效地间隔了事件并解释了没有较短的 IPD。该区域的强度随着您远离选定点的距离逐渐减小 - 解释了在特定 IPD 距离以上恢复独立性。

在此处输入图像描述

问题:有没有一种数学方法可以让我们仅从随机和真实的数据集中推导出这个区域的形状?例如,通过计算它在每个给定点的强度(偏离随机性的能力),直到它的效果不再可见?

上图中三角形的形状和比例是我想要获得的主要内容(不一定是三角形)。

我们有第二个模型来模拟这个假设——它提供了有希望的结果,但是我们需要关于压制区的形状、规模等方面的指导,否则它需要反复试验,并且可以拟合多个不同的窗口 + 参数。


我以前看过类似的事情,将 IPD 分箱成直方图,拟合伽马概率函数,然后将其转换为危险函数,但我不是数学家,我不知道这是否是正确的方法,也不知道如何去做它。

我主要在 MATLAB 中工作,所以如果有人可以以 MATLAB 的形式提供一些帮助,那就太好了 - 但任何帮助都将不胜感激。

图中使用的数据:

Real IPDs:

7126.5
11311.5
12582.25
21499
25429.25
28876.5
29178.5
35545.25
37498.75
37881.5
38152
45464
47372.5
48047.5
52397
55563
57100.75
59372
61640.5
63822.5
66672.25
67010
68969
69071.5
69680.75
70136
70228.25
75124
75487.5
76186.5
80091.5
80279
80727.75
83397.25
84412.25
84481
85453.5
85483.25
88821
88862.25
89089.5
90453.25
92416.25
96658
97369.75
98573.25
104459.5
105307.25
107716.5
113079.5
113357.75
113750.25
113848
114834.25
114871
114919.25
116882
116899.75
117400.75
113384.191
116714.9387
119898.1004
123046.5264
126504.6261
130069.3977
133819.0782
137747.762
141858.6185
146088.6625
150264.6261
154671.6308
159430.2967
164407.1167
169531.1443
174883.6052
180484.1524
186826.807
193794.4646
201090.8222
209380.867
218202.6614
228206.8165
239754.5876
252495.3356
267223.6972
285275.7581
308050.18
335997.8885
393927.4475
431000.091

Modelled IPDs:

6309.250317
7485.019638
8691.132742
9875.024811
11093.9262
12328.9784
13540.43008
14760.67732
16018.67552
17243.509
18560.20364
19830.60355
21235.71334
22592.75188
23931.62058
25240.54551
26572.1846
27899.31413
29311.17773
30765.96211
32251.92515
33713.78512
35191.37822
36695.70116
38301.07903
39893.27382
41474.13555
43128.17872
44764.51525
46449.33501
48116.12259
49799.81561
51567.24913
53351.51996
55228.92877
57039.44196
58826.45323
60615.27354
62437.5259
64364.0891
66308.25836
68317.33777
70389.35974
72571.9451
74659.85927
76782.19429
79186.51912
81427.22249
83761.00059
86187.90023
88672.44356
91239.82722
93885.18499
96423.67933
99062.67598
101676.3844
104409.6901
107253.7768
110233.3544
113384.191
116714.9387
119898.1004
123046.5264
126504.6261
130069.3977
133819.0782
137747.762
141858.6185
146088.6625
150264.6261
154671.6308
159430.2967
164407.1167
169531.1443
174883.6052
180484.1524
186826.807
193794.4646
201090.8222
209380.867
218202.6614
228206.8165
239754.5876
252495.3356
267223.6972
285275.7581
308050.18
335997.8885
393927.4475
431000.091
1个回答

问题是您假设了 IPD 的某个随机分布,它不符合经验分布。因此,鉴于您迄今为止给出的解释,您的问题的表述有点令人困惑。“偏差”不是来自随机性,而是来自假设的理论分布的经验分布。

您生成位置,其中 0 和 1000 是界限。因此,IPD 为.xiU(0,1000)Δxi=|xixi1|

对于任何给定的小 ,我们可以找到的无条件概率,如下所示:

P(Δxi)<ε
ε>0

P(Δxi)<ε=ε500ε21,000,000

这是一种特殊的分布。这是它的累积和密度函数:在此处输入图像描述 在此处输入图像描述

x 轴是 IPD,y 轴是累积(左)和密度(右)概率函数。

如您所见,您选择的模型(即randi 函数)意味着小距离的概率非常高,远高于大IPD。你的生物学现象可能不适合这个模型。你有尝试一些其他的模型。