同样,您可以使用无监督学习来学习数据的标签,然后使用这些标签进行监督学习。
我以前从未听说过粗体部分。您究竟如何使用无监督学习来“学习标签”以获取无标签数据?
同样,您可以使用无监督学习来学习数据的标签,然后使用这些标签进行监督学习。
我以前从未听说过粗体部分。您究竟如何使用无监督学习来“学习标签”以获取无标签数据?
通常,您不会(而且您不相信有人在互联网上某处写的所有内容)。
作者可能的意思(至少这是我的解释)是您可以使用聚类来识别聚类,将每个聚类声明为自己的类,并使用这些“类”来学习类边界或其他“分类”规则新数据。
然而,如果这种方法有效的话,它可能会遇到严重的泛化问题。如果真正的类重叠,则聚类将无法识别它们,并且聚类将不对应于类。即使集群/类被很好地分离,缺乏真正的标签也会阻止你调整超参数并确保良好的泛化。因此,这是一个理论上可行的概念,但在实践中不太可能奏效。
我还偶然发现了您引用的博客中的前一句话:
如果我们输出原始数字,一个收入预测任务可以是回归,但是如果我们将收入量化到不同的括号中并预测该括号,它就变成了一个分类问题。
同样,理论上是可行的,但不是推荐的方法。通过将收入预测视为一项分类任务,我们忽略了(丢失有关)不同“类别”之间的相似性的信息。括号 [20,000 - 30,000] 比 [150,000 - 200,000] 更接近括号 [30,000 - 40,000]。分类不会考虑到这一点。有关更多详细信息,请参阅我的答案。
当标记完整的数据集既昂贵又耗时时,这会经常出现。一个简单的例子是将产品评论标记到桶中,例如:
我们可以做的是标记我们数据集的一小部分,然后我们可以对单词 vecs 进行聚类,用它们做 knn,或者做一些分析以提取关键字然后标记其余部分(虽然技术上不是无监督的,但最容易解释) . 例如,“价格”这个词主要是针对有关价格的评论弹出的(不足为奇)。所以,如果我们看到这个词,我们可以给它贴上价格标签,让机器学习标签,并希望比仅仅将关键字映射到标签(通常这样做)更好地概括。或者,通过聚类,我们希望带有“价格”一词的评论与其他价格标签混为一谈。
显然,这种方法会在标记所有内容时增加错误,但它绝对可以让您更接近最终目标。
这种类型的方法称为“半监督”学习。
无监督方法通常将数据点分配给集群,这可以被认为是算法生成的标签。我们不会“学习”标签,因为我们想要识别一些真正的目标标签,而是创建标签并将它们分配给数据。无监督聚类将识别数据中的自然组,您可以解释这些组以提出有意义的标签,而不是“聚类 1”、“聚类 2”等 - 也许患者聚类代表生物学的某些方面,或者某些方面一组交易代表欺诈。聚类分配任意分类“标签”,可以进一步分析这些标签以辨别它们是否代表数据中真实、有意义的类。
如果您有一个有用的聚类,那么您可以以监督的方式使用这些标签来训练分类器。与其对每个患者或交易数据集进行聚类并希望找到相同的聚类,您可以训练分类器使用聚类判别基因签名或欺诈配置文件,以便将通过无监督聚类发现的“标签”直接分配给新数据。