我正在研究一些中世纪拉丁文本,并使用各种 NER 方法,例如 CLTK(拉丁模型)、Spacy(多语言、意大利语、西班牙语模型)和 StanfordNER(西班牙模型)。当我使用非拉丁模型时,我使用原始拉丁文本,因为翻译后的文本没有任何意义。
幸运的是,Spacy 多语言模型成功地提取了示例文档的所有人物和地点,但我没有将它们视为实体的附加词。此外,标签不正确。
这是一个示例输出:
{'LOC': ['Artali', 'Artalis', 'Bruges', 'Unde'],
'MISC': ['Marianum lu Tignusu'],
'PER': ['Simone de Mazara',
'Artalem de Alagona',
'Apoca',
'Coram',
'Pero de Naso',
'Pero Caruana',
'Bartholomeo Xacara',
'Testamur',
'Artalis de Alagona',
'Melite',
'Simonis de Mazara',
'Simonem',
'Simone',
'Mariano',
'Artalis',
'Artalem',
'Simoni',
'Panormi',
'Renunciando']}
LOCATIONS 应该是:Panormi、Bruges、Melite 和 PERSONAL 名称应该是除 Unde、Apoca、Coram、Testamur、Renunciando 之外的所有其他名称,它们既不是位置也不是个人名称。
我正在考虑忽略标签并做一些分类 ML 算法。问题是我没有任何可用的训练数据,唯一可能有用的可用语料库是 Proiel 树库,它将专有名词标记为 NE。你会怎么处理这样的问题?