我是 NLP 的新手,我发现了一种名为 ConLL 的格式,它似乎是一个制表符分隔的文件,比如
ID FORM LEMMA PLEMMA POS PPOS FEAT PFEAT HEAD PHEAD DEPREL PDEPREL
我为波斯语找到了这种格式的依赖树库。我想对它做一些实验。我熟悉 C# 并且 C# 有很棒的 XML 文档文件库。
我只是想知道为什么这样的语料库不是 XML 格式的!我说的不是复杂的,但他们可以将每一行放在 XML 的一个节点中。那么至少,我会知道每个元素的标签是什么。
但是,我可以将其转换为 XML。