在机器翻译中,我们经常有双语数据集,例如德语-英语和法语-英语,我们会有如下所示的内容:
/en-de
train.de
train.en
dev.de
dev.en
test.de
test.en
/en-fr
train.fr
train.en
dev.fr
dev.en
test.fr
test.en
然后我们有第三种语言对德语-法语,我们将有:
/de-fr
train.fr
train.de
dev.fr
dev.de
test.fr
test.de
但是假设我们添加西班牙语-英语,我们会得到:
/en-es
train.es
train.en
dev.es
dev.en
test.es
test.en
/de-es
train.es
train.de
dev.es
dev.de
test.es
test.de
/fr-es
train.es
train.fr
dev.es
dev.fr
test.es
test.fr
如果我们添加更多的语言,这些语言对会变得更加乏味。
train.*存储,dev.*和test.*文件的良好数据结构/目录组织是什么?