为什么 ConLL 不是 XML 格式

数据挖掘 nlp 数据格式
2022-02-21 10:38:28

我是 NLP 的新手,我发现了一种名为 ConLL 的格式,它似乎是一个制表符分隔的文件,比如

ID FORM LEMMA PLEMMA POS PPOS FEAT PFEAT HEAD PHEAD DEPREL PDEPREL 

我为波斯语找到了这种格式的依赖树库。我想对它做一些实验。我熟悉 C# 并且 C# 有很棒的 XML 文档文件库。

我只是想知道为什么这样的语料库不是 XML 格式的!我说的不是复杂的,但他们可以将每一行放在 XML 的一个节点中。那么至少,我会知道每个元素的标签是什么。

但是,我可以将其转换为 XML。

2个回答

一个肯定的原因是,您可以在电子表格查看器中轻松打开它。

ConLL 是一种针对处理效率(速度和内存使用)进行了优化的格式。

NLP 的 XML 格式通常有一个接一个的注释层;因此,您必须将整个文件保存在内存中以进行处理。

ConLL 的一个缺点是您必须0为稀疏注释添加填充符(例如,)。