这是刚开始学习机器学习的人提出的一个天真的问题。这些天我正在阅读 Marsland 的“机器学习:算法视角”一书。我发现它作为一本入门书很有用,但现在我想介绍高级算法,那些目前提供最佳结果的算法。我最感兴趣的是生物信息学:生物网络的聚类和在生物序列中寻找模式,特别是应用于单核苷酸多态性 (SNP) 分析。你能给我推荐一些评论或书籍吗?
机器学习的“热门算法”有哪些?
自 2006 年以来,深度学习得到了很多关注。它基本上是一种训练深度神经网络的方法,并且在非常困难的数据集(如文档聚类或对象识别)上取得了非常令人印象深刻的结果。有些人正在谈论第二次神经网络复兴(例如在Schmidhuber的Google 演讲中)。
如果你想留下深刻印象,你应该看看这篇科学论文Reducing the Dimensionality of Data with Neural Networks, Hinton & Salakhutdinov。
(目前该领域正在进行大量工作,因此我所知道的即将出版的只有两本书会处理它:Langford et al 和Machine Learning: a probabilistic perspective by Kevin Murphy。)
到目前为止给出的大多数答案都是指“监督学习”(即,您有一部分数据集的标签,您可以使用它来训练算法)。该问题特别提到了聚类,这是一种“无监督”方法(即事先不知道标签)。在这种情况下,我建议查看:
- k-means 和内核 k-means
- 凝聚聚类
- 非负矩阵分解
- 潜在狄利克雷分配
- 狄利克雷过程和分层狄利克雷过程
但实际上您可能会发现您的相似度/距离度量比您使用的特定算法更重要。
如果你有一些带标签的数据,那么“半监督学习”方法正在变得越来越流行并且非常强大。SSL 的一个很好的起点是 LapSVM(拉普拉斯支持向量机)。
这些书可能会有所帮助:
- Pang-Ning Tan、Michael Steinbach、Vipin Kumar 的数据挖掘简介。这是我在大学的数据挖掘课上推荐的书。我喜欢它的布局和理论方法;
- 数据挖掘:实用机器学习工具和技术,作者:Ian H. Witten、Eibe Frank、Mark A. Hall。一本非常有趣的书。本书还涵盖了许多使用数据挖掘框架WEKA实现的技术;
- Thomas Mitchell 的机器学习。这是一本有点旧的书,但它可能很有用。
然后请记住,您可以参加刚刚开始的斯坦福免费机器学习课程:www.ml-class.com。
对于您的特殊问题,即 SNP 分析,我建议您查看帕多瓦大学的Di Camillo 小组。
这是一篇很棒的文章和书籍,它解释了大多数最流行方法的基本原理、理论和应用:
它特别整洁,因为它是该领域的民意调查专家选择的“前 10 名”。
此外,对于一般的基因数据,特征选择非常重要,因为它有许多特征。例如,SVM 递归特征消除 (SVM-RFE) 和相关方法非常流行,并且在基因数据的背景下正在积极开发和应用。