机器算法验证 - 你如何通过无监督学习来学习标签？ - 吾爱随笔录

你如何通过无监督学习来学习标签？

机器算法验证无监督学习

2022-04-15 18:29:14

在https://huyenchip.com/machine-learning-systems-design/design-a-machine-learning-system.html#design-a-machine-learning-system-dwGQI5R中，我遇到了这句话：

同样，您可以使用无监督学习来学习数据的标签，然后使用这些标签进行监督学习。

我以前从未听说过粗体部分。您究竟如何使用无监督学习来“学习标签”以获取无标签数据？

3个回答

通常，您不会（而且您不相信有人在互联网上某处写的所有内容）。

作者可能的意思（至少这是我的解释）是您可以使用聚类来识别聚类，将每个聚类声明为自己的类，并使用这些“类”来学习类边界或其他“分类”规则新数据。

然而，如果这种方法有效的话，它可能会遇到严重的泛化问题。如果真正的类重叠，则聚类将无法识别它们，并且聚类将不对应于类。即使集群/类被很好地分离，缺乏真正的标签也会阻止你调整超参数并确保良好的泛化。因此，这是一个理论上可行的概念，但在实践中不太可能奏效。

我还偶然发现了您引用的博客中的前一句话：

如果我们输出原始数字，一个收入预测任务可以是回归，但是如果我们将收入量化到不同的括号中并预测该括号，它就变成了一个分类问题。

同样，理论上是可行的，但不是推荐的方法。通过将收入预测视为一项分类任务，我们忽略了（丢失有关）不同“类别”之间的相似性的信息。括号 [20,000 - 30,000] 比 [150,000 - 200,000] 更接近括号 [30,000 - 40,000]。分类不会考虑到这一点。有关更多详细信息，请参阅我的答案。

当标记完整的数据集既昂贵又耗时时，这会经常出现。一个简单的例子是将产品评论标记到桶中，例如：

价格相关
航运相关
质量相关

我们可以做的是标记我们数据集的一小部分，然后我们可以对单词 vecs 进行聚类，用它们做 knn，或者做一些分析以提取关键字然后标记其余部分（虽然技术上不是无监督的，但最容易解释） . 例如，“价格”这个词主要是针对有关价格的评论弹出的（不足为奇）。所以，如果我们看到这个词，我们可以给它贴上价格标签，让机器学习标签，并希望比仅仅将关键字映射到标签（通常这样做）更好地概括。或者，通过聚类，我们希望带有“价格”一词的评论与其他价格标签混为一谈。

显然，这种方法会在标记所有内容时增加错误，但它绝对可以让您更接近最终目标。

这种类型的方法称为“半监督”学习。

无监督方法通常将数据点分配给集群，这可以被认为是算法生成的标签。我们不会“学习”标签，因为我们想要识别一些真正的目标标签，而是创建标签并将它们分配给数据。无监督聚类将识别数据中的自然组，您可以解释这些组以提出有意义的标签，而不是“聚类 1”、“聚类 2”等 - 也许患者聚类代表生物学的某些方面，或者某些方面一组交易代表欺诈。聚类分配任意分类“标签”，可以进一步分析这些标签以辨别它们是否代表数据中真实、有意义的类。

如果您有一个有用的聚类，那么您可以以监督的方式使用这些标签来训练分类器。与其对每个患者或交易数据集进行聚类并希望找到相同的聚类，您可以训练分类器使用聚类判别基因签名或欺诈配置文件，以便将通过无监督聚类发现的“标签”直接分配给新数据。

其它你可能感兴趣的问题

上一篇二项式检验中 p 值和置信区间之间的不一致下一篇使用 PCA 与线性回归