在机器学习的背景下,两者有什么区别
- 无监督学习
- 监督学习和
- 半监督学习?
有哪些主要的算法方法可供研究?
在机器学习的背景下,两者有什么区别
有哪些主要的算法方法可供研究?
通常,机器学习的问题可以被认为是用于分类、预测或建模的函数估计的变体。
在监督学习中,一个提供输入(,, ...,) 和输出 (,, ...,) 并面临着寻找一个以可概括的方式近似此行为的函数的挑战。输出可以是类标签(分类中)或实数(回归中)——这些是监督学习中的“监督”。
在无监督学习的情况下,在基本情况下,您接收输入,, ...,但既没有提供目标输出,也没有提供来自其环境的奖励。根据问题(分类或预测)和您对采样空间的背景知识,您可以使用各种方法:密度估计(估计一些基础 PDF 进行预测)、k-means 聚类(分类未标记的实值数据)、k-模式聚类(分类未标记的分类数据)等。
半监督学习涉及对标记和未标记数据的函数估计。这种方法的动机是,标记数据的生成成本通常很高,而未标记的数据通常不会。这里的挑战主要涉及如何处理以这种方式混合的数据的技术问题。有关半监督学习方法的更多详细信息,请参阅此半监督学习文献调查。
除了这些类型的学习之外,还有其他类型的学习,例如强化学习,即学习方法通过产生动作与其环境交互,, . . ..产生奖励或惩罚,, ...
无监督学习
无监督学习是指您没有可用于训练的标记数据。这方面的例子通常是聚类方法。
监督学习
在这种情况下,您的训练数据存在于标记数据之外。您在这里解决的问题通常是预测没有标签的数据点的标签。
半监督学习
在这种情况下,标记数据和未标记数据都被使用。例如,这可以在深度信念网络中使用,其中一些层正在学习数据的结构(无监督),而一层用于进行分类(使用监督数据进行训练)
我不认为有监督/无监督是最好的思考方式。对于基本的数据挖掘,最好考虑一下您要做什么。有四个主要任务:
预言。如果您要预测一个实数,则称为回归。如果您要预测整数或类别,则称为分类。
造型。建模与预测相同,但模型是人类可以理解的。神经网络和支持向量机工作得很好,但不能产生可理解的模型 [1]。决策树和经典线性回归是易于理解的模型的示例。
相似。如果您试图找到属性的自然组,则称为因子分析。如果您试图找到自然的观察组,则称为聚类。
协会。它很像相关性,但适用于庞大的二进制数据集。
[1] 显然,Goldman Sachs 为预测创建了大量出色的神经网络,但没有人理解它们,因此他们不得不编写其他程序来尝试解释神经网络。