医疗机构名称的生成:培训语料库?

数据挖掘 Python 命名实体识别 文本生成
2022-03-01 09:48:01

我的问题与这个问题非常相似:机构名称的生成我需要能够生成医疗 机构的“假”名称,特别是为单元测试创​​建数据。不幸的是,像 Faker 这样的简单工具不能很好地完成这项任务,所以我对更复杂的解决方案很感兴趣,可能涉及一些 NER 模型。我的问题是在哪里可以获得用于训练模型的文本语料库?文本必须包含(人类)可识别的医疗机构名称,最好是多种语言。我已经看到暗示可以通过抓取 PubMed 或其他 Web 资源来完成 - 可能有一些具体的例子或方法吗?

2个回答

我可以想到几个选择来收集医疗机构样本:

  • 维基百科有一个按国家分类的医院列表(维基百科是不是很神奇?)

  • 许多国家都有某种国家医疗机构名录,但这可能很难废除,而且每个国家都有特定的情况。

  • UMLS为“医疗保健相关组织”(T093,参见此处)提供了一个类别(“语义组”),这意味着可以直接从 UMLS 数据中收集此类组织的列表。我认为这是一个不错的选择,但我做了一个快速测试,它似乎只包含部门名称,没有专有名词,例如:

    Community occupational therapy clinic
    Abortion Center
    Area Health Education Center
    

鉴于 UMLS 与 PubMed 密切相关,我的猜测是这不是一个很好的方向,但可能我没有深入挖掘。公平警告:根据我的经验,处理整个 PubMed/PMC 需要做很多工作。

按照此链接中的描述,我找到了一种通过请求 NCBI RESTful 服务器来创建潜在医疗机构语料库的方法

首先,您发送一个 ESearch 请求,其中包含一些搜索条件(例如,“radiology”、“dicom”、“segmentation”——或其他)。作为响应,您将获得一个带有 PubMed Id 列表的 XML 文档。

然后,您可以发送一个包含 ID 的 EFetch 请求,作为响应,您将获得一个 XML 文档,其中包含每个作者的标签。然后可以使用该数据来构建语料库(第一个近似值)