NER 模型(LSTM 或 CRF)应该在句子级别还是段落级别获取输入训练数据?
假设我们有这个输入文本,我们想做命名实体提取:
据肯塔基州警方称,共和党参议员兰德保罗周五在肯塔基州鲍灵格林的家中遭到袭击。周五下午 3 点 21 分,州警接到了参议员官邸的电话。警方逮捕了一名名叫 Rene Albert Boucher 的男子,他们声称他“故意袭击”了保罗,导致他“受轻伤”。鲍灵格林 59 岁的鲍彻被控一项四级攻击罪。截至周六下午,他以 5,000 美元的保释金被关押在沃伦县地区监狱。
段落级别:我们可以把它看成一个记录,每个token都用实体标签来标记。模型有一条长序列的记录。
句子级别:我们首先将段落智能拆分为 5 个正确的句子,每个句子中的每个 token 都用实体标签进行标记。模型有五个序列较短的记录:
0) 据肯塔基州警方称,共和党参议员兰德保罗周五在肯塔基州鲍灵格林的家中遭到袭击。
1) 周五下午 3 点 21 分,州警接到了参议员官邸的电话。
2) 警方逮捕了一名名叫 Rene Albert Boucher 的男子,他们声称他“故意袭击”保罗,导致他“受轻伤”。
3) 鲍灵格林 59 岁的 Boucher 被控一项四级攻击罪。
4) 截至周六下午,他以 5,000 美元的保释金被关押在沃伦县地区监狱。
哪一个给 NER 建模更好的 NER 性能?
我倾向于认为句子级别更好,但是,如果给定长段落,不应该训练 LSTM 记忆细胞来自动记住或忘记状态吗?尤其是当句子拆分也可能出错时,例如:
1) 周五下午 3 点 21 分,州警接到了参议员官邸的电话。
本来可以
1) 州警在下午 3 点 21 分接到了参议员官邸的电话
2)星期五。