如何从一个没有出现的语料库中识别出最不同的短序列?

计算科学 搜索
2021-12-17 14:01:00

我想生成一个定义长度的最独特的字符串(20 长,引物),它不会出现在更大的字符串(64 亿长,人类基因组)中。当然,可能有许多唯一的字符串,但我想避免在较大的纵梁中可能出现任何不匹配/删除/插入的字符串。我的问题比常规文本更容易,因为字符串中只有 4 个可能的元素(A、T、C、G),但我还需要担心可能出现在较大字符串中的唯一字符串的反向补码。

我曾尝试通过蛮力搜索不匹配来识别这些唯一字符串,但我想知道是否有更好的方法。对于生物信息学专家,我从随机生成的字符串中对基因组进行了 BLAST 搜索。

0个回答
没有发现任何回复~