斯坦福 NER 训练的数据集是什么?

数据挖掘 nlp 数据集 斯坦福-nlp
2022-02-28 20:09:04

我想从头开始将斯坦福 NER 库重新训练为 1 类模型。

开箱即用只有 3,4 和 7 级型号。

是否可以获得模型最初训练的数据?

1个回答

原始论文提到了两个语料库:CoNLL 2003(显然现在在这里)和“CMU Seminar Announcements Task”。然而,根据问题中链接的页面,实际的 NER 是在更大的语料库组合上进行训练的:

我们的大型英语 NER 模型在 CoNLL、MUC-6、MUC-7 和 ACE 命名实体语料库的混合上进行了训练,因此这些模型在各个领域都相当稳健。

因此可能很难获得准确的原始训练数据。然而,这些语料库中的大多数都是为一些共享任务而编译的,应该可以在线获得。可能还有最近的一些:快速搜索“命名实体识别共享任务”会返回许多命中。