我有一个包含 3190 个 DNA 实例的数据库,由 60 个连续的 DNA 核苷酸位置组成,按 3 种类型分类:EI、IE、其他。
我想制定一个有监督的分类器。
我目前的方法是为每个实例制定一个二阶马尔可夫转移矩阵,并将结果数据应用于神经网络。
考虑到数据的序列应该是相关的,如何最好地处理这个分类问题?有没有比我想出的更好的方法?
我有一个包含 3190 个 DNA 实例的数据库,由 60 个连续的 DNA 核苷酸位置组成,按 3 种类型分类:EI、IE、其他。
我想制定一个有监督的分类器。
我目前的方法是为每个实例制定一个二阶马尔可夫转移矩阵,并将结果数据应用于神经网络。
考虑到数据的序列应该是相关的,如何最好地处理这个分类问题?有没有比我想出的更好的方法?
一种方法是创建 20 个特征(每个特征代表一个密码子)。这样,您将拥有一个包含 3190 个实例和 20 个分类特征的数据集。无需将序列视为马尔可夫链。
一旦数据集按照上面的建议进行了特征化,任何有监督的分类器都可以正常工作。我建议使用梯度提升机器,因为它可能更适合处理分类特征。