如何从原始文本中提取员工的职位

数据挖掘 机器学习 nlp 斯坦福-nlp
2022-03-08 03:22:57

我有原始文本,例如“John Fullerton 先生是澳大利亚铁路公司的首席执行官兼董事总经理,并于 2011 年 2 月被任命为该职位。”

我使用斯坦福 NER 轻松识别了 PERSON(John Fullerton)的姓名,现在我想提取职位(首席执行官)。斯坦福 NER 将首席执行官视为“O”,那么我应该在这里使用哪种方法?

1个回答

看看这个以了解如何构建知识库。如果你有足够的数据,我想说最好的方法是根据你的语料库建立你自己的知识库。

开始的想法(简化)是通过查看一些数据来获得诸如“ NAME is POSITION ”之类的模式。通过这个你可以找到很多名字和职位。然后,您从中提取新模式并再次扫描整个数据。这样做直到没有新的模式出现。然后你会得到很多 is-a 关系,这正是你所需要的。

为了提取位置,您可能需要句子分割。请查看幻灯片 56以获取概览。

PS:如果你没有足够的数据,你可能会爬网并获取文本并尝试制作你的词法数据库。定位更有可能具有此类上下文的网站。

希望能帮助到你。祝你好运!