机器学习技术的分类/概述

机器算法验证 机器学习 方法比较
2022-04-06 22:48:21

我的问题:我正在寻找机器学习技术的分类/动物寓言/概述。我想了解 1)这些方法如何相互关联,以及 2)不同方法的相对成本和收益(可能还有典型应用)。


背景:我接受过统计学方面的培训,并且对一系列这些技术如何相互关联有一个相当清晰的思维导图。了解不同技术的成本和收益显然可以更容易地选择最好的技术应用于不同的情况。

我想为更广泛的机器学习领域开发类似的思维导图或分类法。对我来说最重要的是理解技术分类的最高层次,但我也认识到在一些我应该注意的领域存在重大的低层次发展(例如神经网络似乎有大量的子类) .

不是在寻找对每种方法的深入解释——尽管参考文献会很棒——而是一个我可以用来以更明智的方式集中学习努力的框架。

这个侧重于统计技术的问题是相似的,因为目标是了解方法之间的关系。但我寻找的不仅仅是“备忘单”。我想至少在基本层面上理解每一个,而不仅仅是遵循流程图上的一组规则。

2个回答

您可以在Kevin Patrick Murphy的Machine Learning: a Probabilistic Perspective 一的目录中找到最重要的 ML 方法的一个很好的分类法。

鉴于您的统计学背景,我非常有信心您会发现这本书足智多谋。它对几乎所有类型的 ML 方法都有介绍性描述和深入解释。

基于树的方法

一组围绕决策树构建的回归和分类方法。在决策树中,数据基于其预测变量进行递归分区,并通过对每棵树的相关尖端(“叶子”)处的数据点进行平均来生成新的预测。标准决策树的弱点(例如过度拟合)已通过 bagging(在随机森林中)和 boosting(在梯度提升机器中)大大克服。

包括:CART、C4.5、随机森林、梯度提升树

优点:灵活且相对容易解释(重要性分数,部分效果)

支持向量机 (SVM)

最初是一种用于二元分类的算法,用于识别最佳分离两组数据点的超平面。后续扩展包括多类 SVM(通过将多类问题简化为一系列 2 类问题)和支持向量回归(使用超平面预测连续值)

优点:

人工神经网络

其网络结构受生物系统启发(并在理论上允许其灵活性)的计算系统。由人工神经元网络组成,这些神经元可以在定义的、通常是层次结构的结构中相互传输信号。每个人工神经元接受多个输入,根据各自的权重对它们求和,并根据某些激活函数产生输出。每个输入的权重是在网络的训练过程中学习的。神经元被组织成层,这些层倾向于抽象出它们所训练的系统的不同特征。

优点:

包括:卷积神经网络 (CNN)、循环神经网络 (RNN)、深度学习