在半监督分类的背景下,“金标签”一词指的是什么?

机器算法验证 分类 半监督学习
2022-04-09 21:54:22

在此处https://github.com/HazyResearch/snorkel的整个 Snorkel 教程和团队的相关白皮书中都提到了“黄金标签”,但该术语回避了定义。

半监督分类上下文中的“黄金标签”是什么?

谢谢你。

1个回答

来自https://hazyresearch.github.io/snorkel/blog/snark.html

我们称这种类型的训练数据为弱监督,因为它比机器学习模型通常训练的昂贵的、手动管理的“黄金”标签更嘈杂且准确性更低。但是,Snorkel 会自动对这些嘈杂的训练数据进行去噪,以便我们可以使用它来训练最先进的模型。

据我了解,Snorkel 的目标是通过从一组小得多的手工标记训练数据中学习,为大规模 ML 算法生成大量合成训练数据。手工标记的训练数据由主题专家处理,因此我们更加确定标签的正确性(但获得大量此类数据可能非常昂贵,因此首先推动了 Snorkel )。因此,他们似乎将这些手工标记的数据称为“黄金”标签,因为它们代表了一些可靠的真实值。这可以与算法输出的标签进行对比,这些标签希望是高质量的,但仍然受到构造噪声的影响。