仅在弱标签上训练模型

数据挖掘 机器学习 nlp 监督学习
2022-02-01 11:04:38

我已经阅读了几篇论文,现在使用基于规则的系统来创建弱标签,然后仅使用这些弱标签训练基于 BERT 的模型。两项研究都报告了手动标记的金标准测试数据的更好性能。

但是,我只是不遵循这里的逻辑。我了解远程监督和所有这些。现在已经有一段时间了。我只是不明白您的模型(无论是否是 BERT)是否仅在这些弱标签上进行了训练,那么您将它们视为“ground-truth”,更重要的是,您是否已经知道如何创建“ground-truth” "(通过基于规则的系统)???第二步的意义何在?

即使在测试数据上的表现更好。它不能让我相信你的 ML 模型(从第二步开始)已经学到了超出你提供给它的弱标签的东西。

我发现唯一有一些优点的论点是,您基本上已经将基于 BERT 的模型视为零样本分类器,并且您正在使用弱标签对其进行微调。我只是困惑。有人可以启发我吗?我在这里遗漏了一些明显的东西吗?

1个回答

基于对评论中链接的论文的快速阅读:

我只是不明白您的模型(无论是否是 BERT)是否仅在这些弱标签上进行训练,那么您将它们视为“基本事实”,

正确,但仅用于训练:训练模型以识别使用“快速而肮脏”的方法获得的标签。

更重要的是,您难道不知道如何(通过基于规则的系统)创建“基本事实”吗???第二步的意义何在?

不,因为他们感兴趣的真正基本事实不是那些来自“快速而肮脏”的方法。如果是的话,运行他们基于规则的系统就足够了。目标是预测在作者所谓的“黄金标准语料库”中获得的标签,该语料库是手动注释的,模型从未见过。

通常,快速而肮脏的方法会导致一些分类错误。使用这些标签调整模型的目的是查看模型是否可以从这些低质量标签推断出高质量标签。这种超越训练数据的泛化能力基于原始类 BERT 模型中包含的底层语义信息。例如,该模型可能能够将游泳等特定运动与“身体活动”相关联,即使弱监督不包含这种关联。