我正在训练一个自定义 Spacy 模型。我是否不标记实体会影响结果吗?例如,德国是 LOC。在一个示例(1)中,我标记了这一点。在另一个示例 (2) 中,我忽略它并标记另一个实体:
示例 1:德国(LOC) 是中欧和西欧的一个国家。
示例 2:德国北部与丹麦(LOC) 接壤。
这不是关于偶尔被忽略的一个实体,而是关于几个。
我正在训练一个自定义 Spacy 模型。我是否不标记实体会影响结果吗?例如,德国是 LOC。在一个示例(1)中,我标记了这一点。在另一个示例 (2) 中,我忽略它并标记另一个实体:
示例 1:德国(LOC) 是中欧和西欧的一个国家。
示例 2:德国北部与丹麦(LOC) 接壤。
这不是关于偶尔被忽略的一个实体,而是关于几个。
是的,这很重要。很多。您需要标记在每个句子中遇到的每个实体。只要它们不重叠,您就可以为每个文档添加任意数量的实体类型和实体。
首先,这很重要,因为在您的示例中,您的模型收到一个“德国”示例,它是 LOC,而另一个不是。因此,它必须意味着“德国”周围的上下文决定了它是否是一个实体。不在某些句子中标记您的实体与您正在尝试学习的任务背道而驰。
在他们的文档中,他们展示了如何使用每个文档的多个相同类型的实体来定义训练数据:
TRAIN_DATA = [
("Who is Shaka Khan?", {"entities": [(7, 17, "PERSON")]}),
("I like London and Berlin.", {"entities": [(7, 13, "LOC"), (18, 24, "LOC")]}),
]