众所周知,科学为我们提供了大量免费可访问的数据,例如https://www.1000genomes.org和https://www.ncbi.nlm.nih.gov/genbank。我们如何处理数据并将数据科学/机器学习应用于它?可能有什么想法?
我自己的想法:
- 生物数据可视化
- 使用隐藏马尔可夫模型的基因预测
还有吗?
众所周知,科学为我们提供了大量免费可访问的数据,例如https://www.1000genomes.org和https://www.ncbi.nlm.nih.gov/genbank。我们如何处理数据并将数据科学/机器学习应用于它?可能有什么想法?
我自己的想法:
还有吗?
资料来源:https://ghr.nlm.nih.gov/handbook/genomicresearch?show=all
您可以建立模型来按人口对基因组进行分类。运行无监督学习(聚类)以查看模型中是否重建了种群。建立模型以推断缺失的基因型
要进行可扩展的 DNA 分析,您可以查看基于 Apache Spark 的Adam软件