NER在句子级别或文档级别?

数据挖掘 nlp lstm 词嵌入 命名实体识别 斯坦福-nlp
2022-03-11 06:24:00

NER 模型(LSTM 或 CRF)应该在句子级别还是段落级别获取输入训练数据?

假设我们有这个输入文本,我们想做命名实体提取:

据肯塔基州警方称,共和党参议员兰德保罗周五在肯塔基州鲍灵格林的家中遭到袭击。周五下午 3 点 21 分,州警接到了参议员官邸的电话。警方逮捕了一名名叫 Rene Albert Boucher 的男子,他们声称他“故意袭击”了保罗,导致他“受轻伤”。鲍灵格林 59 岁的鲍彻被控一项四级攻击罪。截至周六下午,他以 5,000 美元的保释金被关押在沃伦县地区监狱。

  1. 段落级别:我们可以把它看成一个记录,每个token都用实体标签来标记。模型有一条序列的记录。

  2. 句子级别:我们首先将段落智能拆分为 5 个正确的句子,每个句子中的每个 token 都用实体标签进行标记。模型有五个序列较短的记录:

0) 据肯塔基州警方称,共和党参议员兰德保罗周五在肯塔基州鲍灵格林的家中遭到袭击。

1) 周五下午 3 点 21 分,州警接到了参议员官邸的电话。

2) 警方逮捕了一名名叫 Rene Albert Boucher 的男子,他们声称他“故意袭击”保罗,导致他“受轻伤”。

3) 鲍灵格林 59 岁的 Boucher 被控一项四级攻击罪。

4) 截至周六下午,他以 5,000 美元的保释金被关押在沃伦县地区监狱。

哪一个给 NER 建模更好的 NER 性能?

我倾向于认为句子级别更好,但是,如果给定长段落,不应该训练 LSTM 记忆细胞来自动记住或忘记状态吗?尤其是当句子拆分也可能出错时,例如:

1) 周五下午 3 点 21 分,州警接到了参议员官邸的电话。

本来可以

1) 州警在下午 3 点 21 分接到了参议员官邸的电话

2)星期五。

0个回答
没有发现任何回复~