我已经阅读了几篇论文,现在使用基于规则的系统来创建弱标签,然后仅使用这些弱标签训练基于 BERT 的模型。两项研究都报告了手动标记的金标准测试数据的更好性能。
但是,我只是不遵循这里的逻辑。我了解远程监督和所有这些。现在已经有一段时间了。我只是不明白您的模型(无论是否是 BERT)是否仅在这些弱标签上进行了训练,那么您将它们视为“ground-truth”,更重要的是,您是否已经知道如何创建“ground-truth” "(通过基于规则的系统)???第二步的意义何在?
即使在测试数据上的表现更好。它不能让我相信你的 ML 模型(从第二步开始)已经学到了超出你提供给它的弱标签的东西。
我发现唯一有一些优点的论点是,您基本上已经将基于 BERT 的模型视为零样本分类器,并且您正在使用弱标签对其进行微调。我只是困惑。有人可以启发我吗?我在这里遗漏了一些明显的东西吗?