我是遗传学和分子生物学的博士生,正在研究一种算法,以使用卷积神经网络识别 DNA 序列是转座因子 (TE) 还是不是 TE,并且它已经按照我想要的方式工作了它(当然我一直在努力改进它)。
输入是一个包含多个 DNA 序列的FASTA 文件。该算法分析每个序列并返回它是否是 TE,但问题是:不一定整个序列都是 TE;在许多情况下,只是一个片段(如字符串的子字符串)就是一个 TE。
我想知道是否有办法映射坐标和/或返回代表 TE 的片段。对我来说,这似乎有点棘手,因为一个热编码、展平等的所有序列预处理,而且我不知道原始的零和一序列如何返回我想要的。虽然我知道一些 python,并且我正在研究机器学习和深度学习以了解它是如何工作的,但我的领域是生物科学而不是计算机科学或相关的东西。
在这里,我将尝试举例说明上述内容。
假设我有这三个序列,小写的子字符串(只是为了示例,不会这样)是 TE。
>NAD4
TAATATTAAGATaggattgggattgtatgaagggttaaaattaatatttctataatattaatagaaaaaaagttgttaagatttttatttacgaagccatgttgagttcttCCAAAAA
>NAD4-V
CTAGTTAAAAGTAAATGTTaagataaggattgggattgtatgaagggttaaaattaatatttctataatattaatagaaaaaaagttgttAAGATTTTTATTTACGAAGCCATGTTGAG
>STL-M
TCGAAGAAGGGGTCATTAAATTTACTTTTGCTTTTTATACTATATTAGATCTTAAATCGTTTATATGTTTTTTTTAAAAAAACTATAAAGTTACCCACAAATAGAAAATTTGTTGTGCT
我想有类似以下的输出:
ID Classification Coordinates Sequence
NAD4 TE 13:112 aggattgggattgtatgaagggttaaaattaatatttctataatattaatagaaaaaaagttgttaagatttttatttacgaagccatgttgagttctt
NAD4-V TE 20:91 aagataaggattgggattgtatgaagggttaaaattaatatttctataatattaatagaaaaaaagttgtt
STL-M NT NaN NaN
我是否对神经网络要求太多,并且我必须在预测后使用一些工具/自定义脚本来计算序列和/或坐标?