我有一个临床 NLP 问题,我需要一些帮助来建立一个适当的框架。
我正在尝试从超声心动图报告中提取不同的元素。这些要素既是定量的,也是定性的。
例如,定量元素采用以下形式:
“LVEF:40%”、“LVIM:2 mm/s”、“三尖瓣反流为 4mm/s”
和定性元素的形式为:
“心室功能下降”、“我们注意到舒张功能下降”
最终,我的目标是为一个注释获得下表:
ID LVEF LVIM TR Diastolic Dysfunction
1 40 2 4 Reduced
我目前这样做的框架是使用 Quanteda 包和 Spacyr。
文本的标记化
这很简单。
解析
这是我有点犹豫的地方。我相信这个项目的关键是捕获单词的序列,因为检索与哪个参数相关联的数字将是困难的(例如,在词袋场景中,不可能知道 4例如 LVEF 或 LVIM 的值)。
我不知道解析文本以检索该信息的最佳方法是什么。
字典使用
许多超声心动图参数以不同的方式注册。例如,“LVEF”记录为“左心室功能”、“心脏功能”、“左功能”。我构建了一个字典,映射给定概念的所有可能变化。
在 NLP 管道的哪一点应该使用字典以及 Quanteda 如何使用自定义字典?
谢谢你们!