在 NLP 中,语言通常被称为low resource或high resource。
这些术语是什么意思?
在 NLP 中,语言通常被称为low resource或high resource。
这些术语是什么意思?
高资源语言是存在许多数据资源的语言,这使得为这些语言开发基于机器学习的系统成为可能。英语是迄今为止资源最丰富的语言。西欧语言以及日语和中文都覆盖得很好。自然低资源语言是相反的,即没有或很少可用资源的语言。一些已灭绝或近乎灭绝的语言和许多地方方言就是这种情况。实际上有很多语言主要是口头的,很少有书面资源(更不用说电子格式的资源);对于一些人来说,有书面文件,但甚至没有像字典这样基本的东西。
为了训练良好的基于语言的系统,需要许多不同类型的资源:
许多类型的语言资源生产成本很高,这就是为什么国家/语言之间的经济不平等反映在语言资源的数量(或缺失)上的原因。Universal Dependencies 项目是填补这一空白的有趣尝试。