数据挖掘 - NLP 中的自我监督/半监督有什么区别？ - 吾爱随笔录

数据挖掘 nlp 半监督学习预训练

2022-02-20 01:16:50

GPT-1 提到了半监督学习和无监督预训练，但对我来说似乎是一样的。而且，戴乐的“半监督序列学习”也更像是自监督学习。那么它们之间的主要区别是什么？

1个回答

半监督学习对一小部分数据有标签，但在自我监督中没有可用的标签。想象一个巨大的问题/答案数据集。没有人标记该数据，但您可以学习问答，对吗？因为您能够从数据中检索问题和答案之间的关系。

或者在建模文档中，您需要相似的句子和不同的句子来学习文档嵌入，但这些详细的标签通常不可用。在这种情况下，您将来自同一文档的句子视为相似，将来自两个不同文档的句子视为不相似并训练您的模型（示例想法：您可以对数据运行主题建模并使相似/不相似的标签更准确）。这叫做自我训练。

其它你可能感兴趣的问题