DNA:随机生成的 1000 个碱基对长的 DNA 序列中“AAAAA”的数量

机器算法验证 非独立的 移动窗口
2022-03-27 13:02:04

假设我有一个随机生成的序列,由 1000 个字母长的字母 A、C、T 和 G 组成。每个字母出现的概率是 25%。序列 'AAAAA' 在 1000 个字母序列中出现 N 次的概率是多少?

我要解决的问题是试验是依赖的,否则这将使用二项式/泊松分布很好地建模。但是如果序列 'AAAAA' 恰好出现在位置 X,那么它出现在位置 X + 1 的概率是 0.25 而不是 0.25 ^ 5。

谢谢你。

1个回答

嗯,有一种方法可以得到一个渐近概率,随着序列的大小变得越来越大。对于 1000 长的序列,我认为它可以为您提供一个很好的近似值。

将L_的字母Lii

考虑马尔可夫链Xi=max(n|Lij,0j<n).

该链的转移概率很简单:

  • p(n,0)=0,75
  • p(n,n+1)=0,25,对于 0 到 4 之间的每个 n。
  • p(5,5)=0,25

然后通过求解\pi_{n} = \sum_{m} \pi_{m}.p(m,n)得到状态\pi_{n}的平衡分布πnπn=mπm.p(m,n)

当你得到的二项分布来获得近似值更大的序列会变得更好。π5π5