假设我有一个随机生成的序列,由 1000 个字母长的字母 A、C、T 和 G 组成。每个字母出现的概率是 25%。序列 'AAAAA' 在 1000 个字母序列中出现 N 次的概率是多少?
我要解决的问题是试验是依赖的,否则这将使用二项式/泊松分布很好地建模。但是如果序列 'AAAAA' 恰好出现在位置 X,那么它出现在位置 X + 1 的概率是 0.25 而不是 0.25 ^ 5。
谢谢你。
假设我有一个随机生成的序列,由 1000 个字母长的字母 A、C、T 和 G 组成。每个字母出现的概率是 25%。序列 'AAAAA' 在 1000 个字母序列中出现 N 次的概率是多少?
我要解决的问题是试验是依赖的,否则这将使用二项式/泊松分布很好地建模。但是如果序列 'AAAAA' 恰好出现在位置 X,那么它出现在位置 X + 1 的概率是 0.25 而不是 0.25 ^ 5。
谢谢你。
嗯,有一种方法可以得到一个渐近概率,随着序列的大小变得越来越大。对于 1000 长的序列,我认为它可以为您提供一个很好的近似值。
将L_的字母。
考虑马尔可夫链
该链的转移概率很简单:
然后通过求解\pi_{n} = \sum_{m} \pi_{m}.p(m,n)得到状态\pi_{n}的平衡分布
当你得到的二项分布来获得近似值。更大的序列会变得更好。