数据挖掘 - 基因组数据可以做什么样的研究？ - 吾爱随笔录

数据挖掘机器学习分类生物信息学数据

2021-09-18 12:28:35

众所周知，科学为我们提供了大量免费可访问的数据，例如https://www.1000genomes.org和https://www.ncbi.nlm.nih.gov/genbank。我们如何处理数据并将数据科学/机器学习应用于它？可能有什么想法？

我自己的想法：

还有吗？

2个回答

确定基因的功能和在整个基因组中调节基因的元素。
找出人与人之间 DNA 序列的变异并确定它们的重要性。最常见的遗传变异类型被称为单核苷酸多态性或 SNP（发音为“snip”）。这些微小的差异可能有助于预测一个人患特定疾病的风险和对某些药物的反应。
发现蛋白质的 3 维结构并确定其功能。
探索 DNA 和蛋白质如何相互作用以及如何与环境相互作用以创建复杂的生命系统。
为疾病的早期检测、诊断和治疗开发和应用基于基因组的策略。
对其他生物的基因组进行测序，例如大鼠、牛和黑猩猩，以便比较物种之间的相似基因。
开发新技术以大规模研究基因和 DNA 并有效存储基因组数据。
继续探索基因组研究引发的伦理、法律和社会问题。

您可以建立模型来按人口对基因组进行分类。运行无监督学习（聚类）以查看模型中是否重建了种群。建立模型以推断缺失的基因型

要进行可扩展的 DNA 分析，您可以查看基于 Apache Spark 的Adam软件

其它你可能感兴趣的问题