数据挖掘 - 似乎教科书“机器学习-概率视角”以相反的方式使用输入和输出，是吗？ - 吾爱随笔录

似乎教科书“机器学习-概率视角”以相反的方式使用输入和输出，是吗？

数据挖掘机器学习

2022-02-14 17:30:51

凯文帕特里克墨菲的“机器学习 - 概率视角”的第 1 章说

我们现在考虑无监督学习，我们只得到输出数据，没有任何输入。目标是在数据中发现“有趣的结构”；这有时被称为知识发现。

发表这篇文章

无监督学习是一种机器学习算法，用于从由没有标记响应的输入数据组成的数据集中进行推断。

我看到这种解释的次数比那本书里的还多。

似乎这本书以相反的方式使用了这些术语，将数据集视为某些输入的输出，我的理解对吗？

2个回答

不，事实并非如此。我几乎可以肯定这是一个错字，应该改为：

“我们现在考虑无监督学习，我们只得到输入数据，没有任何输出。”

可以通过查看书中对监督学习的定义来推断：

“在本节中，我们讨论分类。这里的目标是学习从输入x 到输出y 的映射，其中 y ∈ {1,...,C}，C 是类的数量。”

在我看来，您的脑海中几乎已经有了正确的画面。我最好描述无监督/监督学习之间差异的方式如下：

1.监督学习

旨在将一个非常具体的数据集（通常由研究人员/程序员/任何人为特定任务定制；也称为清理数据集）作为输入，然后机器学习模型将使用该数据集执行其训练过程。该数据集通常还与额外的数据集一起提供，这些数据集是由研究人员/程序员/任何人故意制作的，作为与输入数据集相关的元数据源（例如图像数据集的标签区域等）。 ) 这是“受监督”部分。然后输出将是一个模型，该模型可以获取与输入类似的数据，并以一定的准确性预测应该分配给它的元数据。（在前面的示例中，这将提供一个图像，然后模型将输出该图像的标签）

2.无监督学习

本质上是相同的原则，但没有任何特殊设计的元数据伴随输入。这种方法被称为无监督，因为一旦提供输入，它就不需要人以任何方式协助模型。ML 模型的这种分类被广泛认为是一个更具挑战性的问题。因为它要求我们理解将原始图像数据作为输入的真正含义的原理（假设图像标记的相同示例案例）并且没有其他任何东西，所以返回应该与图像一起的所有标记。

其它你可能感兴趣的问题

上一篇如何处理超出范围的值？下一篇分类问题的非凸约束