NLP 中迁移学习的资源和有用提示

数据挖掘 深度学习 nlp 词嵌入 卷积神经网络 迁移学习
2022-02-24 01:43:05

我有一些用于训练和测试 DNN 的标签数据。我工作的主要目的是训练一个可以对文本进行二进制分类的模型。为此,我有大约 3000 个标签数据和 60000 个未标记数据可供我使用。我的数据类型与指令相关(比如-开门[label-1],给我一杯水[label-1],给我钱[label-0]等)。在这种情况下,我听说Transferring其他模型的知识将对我有很大帮助。谁能给我一些关于 NLP 领域迁移学习的有用资源?

我已经做了一些实验。我使用 GLoVE 作为预训练嵌入。然后用我的标签数据测试它。但准确率约为 70%。还尝试使用我自己的数据(63k)构建嵌入,然后训练模型。测试数据的准确率达到 75%。我的模型架构如下 - 在此处输入图像描述

Q1:我有一个小问题,如果我在模型中使用 GLOVE 嵌入,它会被称为迁移学习吗?

欢迎任何形式的帮助。即使有人在不使用迁移学习的情况下构建模型有其他想法,也受到欢迎。

1个回答

如果您对与最初训练的数据不同的数据使用预训练模型,这就是迁移学习。您的两类句子语料库与生成 GloVe 嵌入的数据不同,因此可以将其视为一种迁移学习形式。这可能有助于解释有关预训练的一般想法(以及为什么它是值得追求的)。

我知道的 NLP 迁移学习领域最近的工作是由 fast.ai 的 Howard 和 Ruder 撰写的 ULMFiT如果您愿意,可以参考这篇论文。OpenAI 最近还通过无监督的预训练、任务特定的微调方法扩展了 Transformer 模型。

至于你的任务,我认为探索围绕句子分类的研究可能会有所帮助,而不是深入研究迁移学习。出于您的目的,嵌入似乎是一种合理表示您的数据的方法,而不是证明 Common Crawl(或其他一些数据集)扩展到您的语料库。

希望对你有帮助,祝你好运!