凯文帕特里克墨菲的“机器学习 - 概率视角”的第 1 章说
我们现在考虑无监督学习,我们只得到输出数据,没有任何输入。目标是在数据中发现“有趣的结构”;这有时被称为知识发现。
发表这篇文章
无监督学习是一种机器学习算法,用于从由没有标记响应的输入数据组成的数据集中进行推断。
我看到这种解释的次数比那本书里的还多。
似乎这本书以相反的方式使用了这些术语,将数据集视为某些输入的输出,我的理解对吗?
凯文帕特里克墨菲的“机器学习 - 概率视角”的第 1 章说
我们现在考虑无监督学习,我们只得到输出数据,没有任何输入。目标是在数据中发现“有趣的结构”;这有时被称为知识发现。
发表这篇文章
无监督学习是一种机器学习算法,用于从由没有标记响应的输入数据组成的数据集中进行推断。
我看到这种解释的次数比那本书里的还多。
似乎这本书以相反的方式使用了这些术语,将数据集视为某些输入的输出,我的理解对吗?
不,事实并非如此。我几乎可以肯定这是一个错字,应该改为:
“我们现在考虑无监督学习,我们只得到输入数据,没有任何输出。”
可以通过查看书中对监督学习的定义来推断:
“在本节中,我们讨论分类。这里的目标是学习从输入x 到输出y 的映射,其中 y ∈ {1,...,C},C 是类的数量。”
在我看来,您的脑海中几乎已经有了正确的画面。我最好描述无监督/监督学习之间差异的方式如下:
旨在将一个非常具体的数据集(通常由研究人员/程序员/任何人为特定任务定制;也称为清理数据集)作为输入,然后机器学习模型将使用该数据集执行其训练过程。该数据集通常还与额外的数据集一起提供,这些数据集是由研究人员/程序员/任何人故意制作的,作为与输入数据集相关的元数据源(例如图像数据集的标签区域等)。 ) 这是“受监督”部分。然后输出将是一个模型,该模型可以获取与输入类似的数据,并以一定的准确性预测应该分配给它的元数据。(在前面的示例中,这将提供一个图像,然后模型将输出该图像的标签)
本质上是相同的原则,但没有任何特殊设计的元数据伴随输入。这种方法被称为无监督,因为一旦提供输入,它就不需要人以任何方式协助模型。ML 模型的这种分类被广泛认为是一个更具挑战性的问题。因为它要求我们理解将原始图像数据作为输入的真正含义的原理(假设图像标记的相同示例案例)并且没有其他任何东西,所以返回应该与图像一起的所有标记。