我对机器学习非常陌生,想了解执行它的一般过程。我已经完成了著名的 'iris' 教程,并想询问该教程中的原则是否适用于我未来承担的每个机器学习项目。
我在生物科学领域工作,并且有兴趣将机器学习算法应用于生物序列数据,而不是进行分类或进行无监督聚类。据我了解,每个项目都从以下内容开始:
- 我定义我想从原始数据中学习的“范围”或目标。
- 从我的 OWN 代码/算法生成可能区分这两个类的特性/属性
- 这基本上通过 y_entries 生成了一个巨大的 x_features 矩阵
- 将矩阵输入机器学习算法(我确信这被大大简化了)。
举个例子,假设我有 10,000 个蛋白质序列,我相信 5000 个是“Class1”,5000 个是“Class2”,但我不知道如何用肉眼区分它们。我需要使用我自己的自定义算法生成此序列的 x_features(以某种知情方式),并将生成的 10000 个条目输入算法。
这是正确的方法吗?如果有人能指导我学习一个围绕分析生物序列数据的初学者教程,我将永远感激不尽。