理解词嵌入的迁移学习

数据挖掘 nlp 词嵌入 word2vec 迁移学习 命名实体识别
2022-02-24 08:33:26

我无法完全想象预训练词嵌入的迁移学习在 NLP 任务(比如命名实体识别)中是如何有用的。我正在研究 Andrew NG 的序列模型课程,他似乎说如果目标任务的训练集非常少,那么词嵌入的迁移学习有助于在应用程序中处理训练集中的未知词.

让我们考虑命名实体识别的任务,

我的问题是,目标任务的非常小的训练集包含什么?它们是词嵌入还是标有实体的句子?

他似乎是在暗示,如果训练集只是标记的句子,其词在预训练模型中嵌入,那么训练集中不存在但更接近训练集中已经存在的词也会被有效捕获在应用程序中?

例如:考虑“橙色”在训练集中。但是,“苹果”不是。

因此,在“我喜欢橙汁”和“我喜欢苹果汁”这两个句子中,苹果被识别为一种水果,即使它不在训练集中,因为它更接近于橙汁。

我的假设是对的吗?或者如果我不是,有人可以纠正并向我解释吗?

1个回答

因此,命名实体识别是一种机制,您可以在其中要求您的网络了解如何检测给定词向量作为输入的实体。

词嵌入的理论方面是,根据您对句子的构造,Orange 和 Apple 的词嵌入非常相似,即它们的余弦角非常小。

在命名实体识别中,您使用这些词嵌入并将它们输入网络,您正在训练的数据具有每个词嵌入的标签,即实体或普通词。所以你的网络实际上是在理解词嵌入的关系以及如何标记它们。这让我们难以置信地看到即使 Apple 不在训练集中也能被检测到,这正是词嵌入对我们帮助很大的地方,因为词嵌入通常是在包含单词 apple、orange 和其他词的大型数据集上训练的令牌。这就是迁移学习有帮助的地方,因为您正在使用以无监督方式训练的词嵌入,然后用于学习实体。

希望有帮助。如果需要,我可以详细说明。