机器算法验证 - 机器学习的“热门算法”有哪些？ - 吾爱随笔录

机器学习的“热门算法”有哪些？

机器算法验证机器学习聚类生物信息学

2022-02-15 15:44:42

这是刚开始学习机器学习的人提出的一个天真的问题。这些天我正在阅读 Marsland 的“机器学习：算法视角”一书。我发现它作为一本入门书很有用，但现在我想介绍高级算法，那些目前提供最佳结果的算法。我最感兴趣的是生物信息学：生物网络的聚类和在生物序列中寻找模式，特别是应用于单核苷酸多态性 (SNP) 分析。你能给我推荐一些评论或书籍吗？

4个回答

自 2006 年以来，深度学习得到了很多关注。它基本上是一种训练深度神经网络的方法，并且在非常困难的数据集（如文档聚类或对象识别）上取得了非常令人印象深刻的结果。有些人正在谈论第二次神经网络复兴（例如在Schmidhuber的Google 演讲中）。

如果你想留下深刻印象，你应该看看这篇科学论文Reducing the Dimensionality of Data with Neural Networks, Hinton & Salakhutdinov。

（目前该领域正在进行大量工作，因此我所知道的即将出版的只有两本书会处理它：Langford et al 和Machine Learning: a probabilistic perspective by Kevin Murphy。）

如果您想了解更多信息，请查看主要的深度学习小组正在做什么：斯坦福、蒙特利尔，最重要的是多伦多 #1和多伦多 #2。

到目前为止给出的大多数答案都是指“监督学习”（即，您有一部分数据集的标签，您可以使用它来训练算法）。该问题特别提到了聚类，这是一种“无监督”方法（即事先不知道标签）。在这种情况下，我建议查看：

k-means 和内核 k-means
凝聚聚类
非负矩阵分解
潜在狄利克雷分配
狄利克雷过程和分层狄利克雷过程

但实际上您可能会发现您的相似度/距离度量比您使用的特定算法更重要。

如果你有一些带标签的数据，那么“半监督学习”方法正在变得越来越流行并且非常强大。SSL 的一个很好的起点是 LapSVM（拉普拉斯支持向量机）。

这些书可能会有所帮助：

Pang-Ning Tan、Michael Steinbach、Vipin Kumar 的数据挖掘简介。这是我在大学的数据挖掘课上推荐的书。我喜欢它的布局和理论方法；
数据挖掘：实用机器学习工具和技术，作者：Ian H. Witten、Eibe Frank、Mark A. Hall。一本非常有趣的书。本书还涵盖了许多使用数据挖掘框架WEKA实现的技术；
Thomas Mitchell 的机器学习。这是一本有点旧的书，但它可能很有用。

然后请记住，您可以参加刚刚开始的斯坦福免费机器学习课程：www.ml-class.com。

对于您的特殊问题，即 SNP 分析，我建议您查看帕多瓦大学的Di Camillo 小组。

这是一篇很棒的文章和书籍，它解释了大多数最流行方法的基本原理、理论和应用：

数据挖掘中的 10 大算法

它特别整洁，因为它是该领域的民意调查专家选择的“前 10 名”。

此外，对于一般的基因数据，特征选择非常重要，因为它有许多特征。例如，SVM 递归特征消除 (SVM-RFE) 和相关方法非常流行，并且在基因数据的背景下正在积极开发和应用。

其它你可能感兴趣的问题

上一篇你能从 aabcccddef 得到多少个 2 字母的单词下一篇如果非随机样本与随机样本相同怎么办？