Twitter数据上的NER

数据挖掘 Python 命名实体识别
2021-09-21 15:38:21

从 Twitter 数据中提取命名实体 [名称和位置] 的最佳方法/库/数据是什么?[字典查找除外]

我尝试使用 Python-Stanford NER,但是当命名实体没有大写时,它似乎失败了。

在将文本转换为大写后,我还尝试预测 NER,例如:

 text = "david beckham played for england"

 stanford.NERTagger.tag(text)
 [(u'david', u'PERSON'), (u'beckham', u'PERSON'), (u'played', u'O'), (u'for', u'O'), (u'england', u'O')]

 stanford.NERTagger.tag(text.upper())
 output : [(u'DAVID', u'PERSON'), (u'BECKHAM', u'PERSON'), (u'PLAYED', u'O'), (u'FOR', u'O'), (u'ENGLAND', u'LOCATION')]
2个回答

是的,在推文中提取命名实体是一项具有挑战性的任务。试一试 NLTK NER 和 Alan Ritter 的 Twitter 特定 NER,评估它们的性能,并与斯坦福 NER 进行比较,哪一个适合您的使用。如果您不介意那么多虚假 NE,也许您想使用多个来获得更多命名实体。

我认为您可以更好地训练自己的 NER 模型。您可以从 CRFSuite 作为一个包开始。