数据挖掘 - DNA序列的分类 - 吾爱随笔录

数据挖掘顺序

2021-10-11 05:36:07

我有一个包含 3190 个 DNA 实例的数据库，由 60 个连续的 DNA 核苷酸位置组成，按 3 种类型分类：EI、IE、其他。

我想制定一个有监督的分类器。

我目前的方法是为每个实例制定一个二阶马尔可夫转移矩阵，并将结果数据应用于神经网络。

考虑到数据的序列应该是相关的，如何最好地处理这个分类问题？有没有比我想出的更好的方法？

1个回答

一种方法是创建 20 个特征（每个特征代表一个密码子）。这样，您将拥有一个包含 3190 个实例和 20 个分类特征的数据集。无需将序列视为马尔可夫链。

一旦数据集按照上面的建议进行了特征化，任何有监督的分类器都可以正常工作。我建议使用梯度提升机器，因为它可能更适合处理分类特征。

其它你可能感兴趣的问题