数据挖掘 - 斯坦福 NER 训练的数据集是什么？ - 吾爱随笔录

数据挖掘 nlp 数据集斯坦福-nlp

2022-02-28 20:09:04

开箱即用只有 3,4 和 7 级型号。

是否可以获得模型最初训练的数据？

1个回答

原始论文提到了两个语料库：CoNLL 2003（显然现在在这里）和“CMU Seminar Announcements Task”。然而，根据问题中链接的页面，实际的 NER 是在更大的语料库组合上进行训练的：

我们的大型英语 NER 模型在 CoNLL、MUC-6、MUC-7 和 ACE 命名实体语料库的混合上进行了训练，因此这些模型在各个领域都相当稳健。

因此可能很难获得准确的原始训练数据。然而，这些语料库中的大多数都是为一些共享任务而编译的，应该可以在线获得。可能还有最近的一些：快速搜索“命名实体识别共享任务”会返回许多命中。

其它你可能感兴趣的问题