似乎教科书“机器学习-概率视角”以相反的方式使用输入和输出,是吗?

数据挖掘 机器学习
2022-02-14 17:30:51

凯文帕特里克墨菲的“机器学习 - 概率视角”的第 1 章说

我们现在考虑无监督学习,我们只得到输出数据,没有任何输入。目标是在数据中发现“有趣的结构”;这有时被称为知识发现。

发表这篇文章

无监督学习是一种机器学习算法,用于从由没有标记响应的输入数据组成的数据集中进行推断。

我看到这种解释的次数比那本书里的还多。

似乎这本书以相反的方式使用了这些术语,将数据集视为某些输入的输出,我的理解对吗?

2个回答

不,事实并非如此。我几乎可以肯定这是一个错字,应该改为:

“我们现在考虑无监督学习,我们只得到输入数据,没有任何输出。”

可以通过查看书中对监督学习的定义来推断:

“在本节中,我们讨论分类。这里的目标是学习从输入x 到输出y 的映射,其中 y ∈ {1,...,C},C 是类的数量。”

在我看来,您的脑海中几乎已经有了正确的画面。我最好描述无监督/监督学习之间差异的方式如下:

1.监督学习

旨在将一个非常具体的数据集(通常由研究人员/程序员/任何人为特定任务定制;也称为清理数据集作为输入,然后机器学习模型将使用该数据集执行其训练过程。该数据集通常还与额外的数据集一起提供,这些数据集是由研究人员/程序员/任何人故意制作的,作为与输入数据集相关的元数据源(例如图像数据集的标签区域等)。 ) 这是“受监督”部分。然后输出将是一个模型,该模型可以获取与输入类似的数据,并以一定的准确性预测应该分配给它的元数据。(在前面的示例中,这将提供一个图像,然后模型将输出该图像的标签)

2.无监督学习

本质上是相同的原则,但没有任何特殊设计的元数据伴随输入。这种方法被称为无监督,因为一旦提供输入,它就不需要人以任何方式协助模型。ML 模型的这种分类被广泛认为是一个更具挑战性的问题。因为它要求我们理解将原始图像数据作为输入的真正含义的原理(假设图像标记的相同示例案例)并且没有其他任何东西,所以返回应该与图像一起的所有标记。