原始论文提到了两个语料库:CoNLL 2003(显然现在在这里)和“CMU Seminar Announcements Task”。然而,根据问题中链接的页面,实际的 NER 是在更大的语料库组合上进行训练的:
我们的大型英语 NER 模型在 CoNLL、MUC-6、MUC-7 和 ACE 命名实体语料库的混合上进行了训练,因此这些模型在各个领域都相当稳健。
因此可能很难获得准确的原始训练数据。然而,这些语料库中的大多数都是为一些共享任务而编译的,应该可以在线获得。可能还有最近的一些:快速搜索“命名实体识别共享任务”会返回许多命中。