关于 NLTK 中 NER 的帮助

数据挖掘 机器学习 Python nlp
2021-10-01 04:32:26

我已经在 NLTK 中使用 Python 工作了一段时间。我面临的问题是,他们无法使用我的自定义数据在 NLTK 中训练 NER。他们使用 MaxEnt 并在 ACE 语料库上对其进行了训练。我在网上搜索了很多,但找不到任何可以用来训练 NLTK NER 的方法。

如果有人可以向我提供任何链接/文章/博客等,这些链接/文章/博客等可以指导我使用用于训练 NLTK NER 的训练数据集格式,以便我可以准备我的特定格式的数据集。如果我被定向到任何可以帮助我训练 NLTK 的 NER 以获取我自己的数据的链接/文章/博客等。

这是一个被广泛搜索且回答最少的问题。可能对将来与 NER 合作的人有所帮助。

3个回答

训练一个与信息提取相关的模型,特别是命名实体识别/解析(NER) ,在NLTK Book的第 7 章中有详细描述,可在以下 URL 在线获取:http://www.nltk .org/book/ch07.html

此外,我认为您可能会发现我交叉验证网站上的相关答案很有用。它有很多关于 NER 和相关主题的相关资源以及各种相关软件工具的参考。

这篇文章够好吗? http://www.succeed-project.eu/wiki/index.php/NLTK#Input_format_for_training

有关于语料库应该是什么样子的解释。

您的数据需要采用 IOB 格式(单词标签 chunktag)才能使其正常工作。
Eric NNP B-PERSON
是 VB O
AT B-NP
CEO NN I-NP
of IN O
Google NNP B-ORGANIZATION

我发现本教程很有帮助:使用 Python 构建您自己的命名实体识别器的完整指南 他使用格罗宁根含义库 (GMB) 语料库来训练他的 NER 块。

之后,您可以从同一个人那里查看本教程:Training a NER System Using a Large Dataset他使用 scikit 学习提高系统性能的地方。

最后,可以在这里找到一些非常有用的教程:NLTK 教程 这个人有一个 youtube 频道,里面有很多主题的教程(ML、NLP、Python ......)

希望能帮助到你。