高/低资源语言:是什么意思?

数据挖掘 nlp
2022-03-03 07:56:38

在 NLP 中,语言通常被称为low resourcehigh resource

这些术语是什么意思?

1个回答

高资源语言是存在许多数据资源的语言,这使得为这些语言开发基于机器学习的系统成为可能。英语是迄今为止资源最丰富的语言。西欧语言以及日语和中文都覆盖得很好。自然低资源语言是相反的,即没有或很少可用资源的语言。一些已灭绝或近乎灭绝的语言和许多地方方言就是这种情况。实际上有很多语言主要是口头的,很少有书面资源(更不用说电子格式的资源);对于一些人来说,有书面文件,但甚至没有像字典这样基本的东西。

为了训练良好的基于​​语言的系统,需要许多不同类型的资源:

  • 来自各种类型(文档类型)的大量原始文本,例如书籍、科学论文、电子邮件、社交媒体内容等。
  • 词汇、句法和语义资源,例如字典、依赖树语料库、语义数据库(例如 WordNet)等。
  • 特定于任务的资源,例如用于机器翻译的并行语料库、各种带注释的文本(例如带有词性标签、命名实体等)

许多类型的语言资源生产成本很高,这就是为什么国家/语言之间的经济不平等反映在语言资源的数量(或缺失)上的原因。Universal Dependencies 项目是填补这一空白的有趣尝试。