检测单词中的命名实体

数据挖掘 nlp 命名实体识别 聊天机器人
2022-03-16 00:19:33

有些语言的名词有词尾(如芬兰语,例如“in Berlin” -> “Berliinissä”)。我试图将训练数据中的字符注释为实体,但随后我运行模型,它没有检测到单词中的字符。当这些字符是一个单独的单词时,才会检测到它们。我无法想出一种实现来有效地检测单词中的命名实体。任何的意见都将会有帮助。

1个回答

我建议研究字符级命名实体识别。例如:Kuru et al, CharNER: Character-Level Named Entity Recognition , Proceedings of COLING 2016, the 26th International Conference on Computational Linguistics: Technical Papers (2016)

作者评估了包括土耳其语在内的许多高度变形的语言,因此这应该足以满足您的芬兰用例

代码在这里:https ://github.com/ozanarkancan/char-ner

您应该希望能够下载并使其开箱即用以进行培训。当然,我假设您有一个标记为芬兰语的 NER 语料库,您需要对其进行预处理以使其格式与他们在 repo 中用于捷克语的 CSV 文件相同。