如何从医疗记录中的缩短词生成缩写

数据挖掘 Python nlp 正则表达式
2022-02-26 17:05:27

我有包含患者病史的文本文件,并希望从中提取信息。

基本上想要的是通过解析病史记录生成缩写、语义类别区域、位置和关系的英文文本,如果有的话,还可以纠正拼写错误。

我用谷歌搜索开源工具,发现 cTAKES 和 Metamap。但是找不到相同的 python api。

有人可以建议如何使用这些工具或通过 python 交互吗?还有更好的方法来使用常规 epression..etc 提取信息。

Sample sentence:
55 yr M comes to the ED with c/o of a chest pain that started 1 hr ago,
The cP are a/w SOB.

Expected o/p 
55 yr(year) (M)male comes to the (ED)emergency department with (c/o)complaint of a chest pain that started 1 hr(hour) ago,The (cP)chest pain is associated with (SOB)short of breathing.

除了生成缩写外,还需要对临床笔记中的温度、5/4、语义类别区域、位置和关系等级别进行标注,并纠正拼写错误。

在等待 UMLS 许可证时,只想检查是否可以通过 UMLS/cTaked/Metamap 实现上述功能?或者cutsom脚本需要结合python/NLP/RE和开源临床缩写字典(请建议)一起编写?

1个回答

首先是一个警告:您的数据是匿名的吗?即使是这样,也要非常小心,因为病史是超级敏感的个人信息。关于如何处理此类数据以及您可以或不能用它做什么,有法律要求。

据我所知,没有用于 cTakes 或 Metamap 的 python API。无论如何,我想这样的 API 会归结为系统调用,所以它不会很好。

作为替代方案,您可以使用UMLS Metathesaurus实现您自己的系统,它是按概念分组的大量医学术语列表(MetaMap 提取 UMLS 术语/概念)。