DNA序列的分类

数据挖掘 顺序
2021-10-11 05:36:07

我有一个包含 3190 个 DNA 实例的数据库,由 60 个连续的 DNA 核苷酸位置组成,按 3 种类型分类:EI、IE、其他。

我想制定一个有监督的分类器。

我目前的方法是为每个实例制定一个二阶马尔可夫转移矩阵,并将结果数据应用于神经网络。

考虑到数据的序列应该是相关的,如何最好地处理这个分类问题?有没有比我想出的更好的方法?

1个回答

一种方法是创建 20 个特征(每个特征代表一个密码子)。这样,您将拥有一个包含 3190 个实例和 20 个分类特征的数据集。无需将序列视为马尔可夫链。

一旦数据集按照上面的建议进行了特征化,任何有监督的分类器都可以正常工作。我建议使用梯度提升机器,因为它可能更适合处理分类特征。