NER 是否适用于大约 1500 到 3000 字左右的大型文档?

数据挖掘 机器学习 Python 深度学习 命名实体识别
2022-02-27 15:42:33

假设我有一份简历,并且我已经分割了工作部分。

通常简历的工作部分包含company name, designation, work period and job description. 现在我有 1000 份简历,并且我已经用这 4 个标签手动注释了每份简历的工作部分。

但这里的问题是每个工作部分都很大,大约 1400-3000 字?此外,工作描述注释不是像公司名称等那样的一个词……工作的全部职责被注释为一个实体。

那么,这会奏效吗?请让我知道对于这种 NER 实体提取我应该考虑哪些事项?

任何建议都会有帮助。先感谢您。

1个回答
  • 运行 NER 的文档的大小根本不成问题,标准的 NER 系统会按顺序扫描文档并标记它找到的任何实体。
  • 要查找的实体的大小可能是一个更大的问题,因为典型的 NER 系统依赖于前面的几个词来检测实体的边界。如果实体跨越大量文本序列,系统就更难检测到它的结束位置。如果它确实导致您的数据出现问题,则可以准确指定在 CRF 模型中使用哪些功能(这取决于我猜的实现)。