基因组数据可以做什么样的研究?

数据挖掘 机器学习 分类 生物信息学 数据
2021-09-18 12:28:35

众所周知,科学为我们提供了大量免费可访问的数据,例如https://www.1000genomes.orghttps://www.ncbi.nlm.nih.gov/genbank我们如何处理数据并将数据科学/机器学习应用于它?可能有什么想法?

我自己的想法:

  • 生物数据可视化
  • 使用隐藏马尔可夫模型的基因预测

还有吗?

2个回答
  • 确定基因的功能和在整个基因组中调节基因的元素。
  • 找出人与人之间 DNA 序列的变异并确定它们的重要性。最常见的遗传变异类型被称为单核苷酸多态性或 SNP(发音为“snip”)。这些微小的差异可能有助于预测一个人患特定疾病的风险和对某些药物的反应。
  • 发现蛋白质的 3 维结构并确定其功能。
  • 探索 DNA 和蛋白质如何相互作用以及如何与环境相互作用以创建复杂的生命系统。
  • 为疾病的早期检测、诊断和治疗开发和应用基于基因组的策略。
  • 对其他生物的基因组进行测序,例如大鼠、牛和黑猩猩,以便比较物种之间的相似基因。
  • 开发新技术以大规模研究基因和 DNA 并有效存储基因组数据。
  • 继续探索基因组研究引发的伦理、法律和社会问题。

资料来源:https://ghr.nlm.nih.gov/handbook/genomicresearch?show=all

您可以建立模型来按人口对基因组进行分类。运行无监督学习(聚类)以查看模型中是否重建了种群。建立模型以推断缺失的基因型

要进行可扩展的 DNA 分析,您可以查看基于 Apache Spark 的Adam软件