数据挖掘 - 理解词嵌入的迁移学习 - 吾爱随笔录

我无法完全想象预训练词嵌入的迁移学习在 NLP 任务（比如命名实体识别）中是如何有用的。我正在研究 Andrew NG 的序列模型课程，他似乎说如果目标任务的训练集非常少，那么词嵌入的迁移学习有助于在应用程序中处理训练集中的未知词.

让我们考虑命名实体识别的任务，

我的问题是，目标任务的非常小的训练集包含什么？它们是词嵌入还是标有实体的句子？

他似乎是在暗示，如果训练集只是标记的句子，其词在预训练模型中嵌入，那么训练集中不存在但更接近训练集中已经存在的词也会被有效捕获在应用程序中？

例如：考虑“橙色”在训练集中。但是，“苹果”不是。

因此，在“我喜欢橙汁”和“我喜欢苹果汁”这两个句子中，苹果被识别为一种水果，即使它不在训练集中，因为它更接近于橙汁。

我的假设是对的吗？或者如果我不是，有人可以纠正并向我解释吗？