NLP 问题:选择用于从文本中提取定量值的最佳解析器

数据挖掘 机器学习 nlp r
2022-01-21 19:44:31

我有一个临床 NLP 问题,我需要一些帮助来建立一个适当的框架。

我正在尝试从超声心动图报告中提取不同的元素。这些要素既是定量的,也是定性的。

例如,定量元素采用以下形式:

“LVEF:40%”、“LVIM:2 mm/s”、“三尖瓣反流为 4mm/s”

定性元素的形式为:

“心室功能下降”、“我们注意到舒张功能下降”


最终,我的目标是为一个注释获得下表:

ID LVEF LVIM TR Diastolic Dysfunction
1  40   2    4  Reduced

我目前这样做的框架是使用 Quanteda 包和 Spacyr。

  1. 文本的标记化

    这很简单。

  2. 解析

    这是我有点犹豫的地方。我相信这个项目的关键是捕获单词的序列,因为检索与哪个参数相关联的数字将是困难的(例如,在词袋场景中,不可能知道 4例如 LVEF 或 LVIM 的值)。

    我不知道解析文本以检索该信息的最佳方法是什么。

  3. 字典使用

    许多超声心动图参数以不同的方式注册。例如,“LVEF”记录为“左心室功能”、“心脏功能”、“左功能”。我构建了一个字典,映射给定概念的所有可能变化。

    在 NLP 管道的哪一点应该使用字典以及 Quanteda 如何使用自定义字典?

谢谢你们!

1个回答

这是一个NER问题。我建议您使用 NER(可能是 @jindrich 提到的 spacy NER),而不是将句子拆分为单词并从 dict 中找到正确的单词。

这个 NER 会从你的句子中指出正确的信息块。

一旦你得到一个实体,你就可以解析它的值。如果它是定量的,那么它很容易解析(通过简单的预处理),如果它是定性的,那么您可能必须将字符串转换为数字,例如 one to 1 。有免费的图书馆。