是否有包含常用医学术语的 NLP 语料库?

数据挖掘 Python nlp nltk
2021-10-14 13:57:29

我正在尝试使用 NLTK 库从患者的医疗报告中提取表示医疗症状的关键字。例如,我有一份医疗报告如下:

s:一位 33 岁的女性晶体学家出现轻度眩晕、轻度头痛,特别是在后脑勺和早晨 x 2 周。pt 还报告慢性轻度偶尔头晕。o:身高 160 厘米,体重 53.8 公斤,体温 37.3 摄氏度,脉搏 76,收缩压 146,舒张压 93,呼吸 15,心脏 = 心脏底部 2/6 的收缩期杂音,胸部 = 听诊清晰 B/L,无罗音或喘息,四肢 = 无水肿或杵状指,心脏 = 正常 S1、S2、RRR a:高血压 p:执行 E/M 2 级(确定的患者) - 已完成,并开具了氢氯噻嗪 - 50 mg po qd,并订购了胆固醇。

在这里,我想找到所有代表医学症状的关键字或二元组。在上面的文字中,这些关键词是“轻度眩晕”、“轻度头痛”、“头晕目眩”等。

为此,我需要某种代表症状的术语集合,以便我可以在我拥有的医疗报告中检测到类似的术语。是否有任何与医学术语相关的 NLTK 语料库?如果我找到表示医学症状的单词列表,我可以对我在医学报告中检测到的单词进行标记和词形还原,并将它们与语料库中的单词进行比较。

谢谢你。

1个回答

欢迎来到生物医学领域,这是 NLP 中为数不多的有太多资源可供选择的领域之一 :)

  • 数据资源:
    • Medline是一个包含3000 万篇摘要的数据库语料库。
    • 每个 Medline 摘要都使用Mesh 描述符进行注释,Mesh 是医学概念的结构化层次结构。
    • PubMed Central (PMC)是一个包含大约 600 万篇完整生物医学文章(不仅是摘要)的数据库。
    • UMLS是一个包含数百万按概念分组的医学术语的数据库,它们本身按语义类型(例如疾病、基因等)分组。
    • PubTator是一种资源,它提供了所有 Medline 和 PMC 文档,并结合了 Mesh 和其他本体进行了完全注释。
  • 软件工具:
    • MetaMap是古老的注释器系统,它使用 UMLS 标签注释任何医学文本。
    • cTakes是另一个更专业的临床文本注释系统。
    • SciSpacy是专门用于生物医学文本的 Spacy 变体。它还可以使用 UMLS 标签注释医学术语。

我想这就是我所知道的所有主要的......到目前为止。

根据您的描述,在我看来,您可能只需要 cTakes 或 SciSpacy。如果您要开始使用 Medline 或 PMC,请注意这些数据集非常庞大(数百 GB)。