在 AI 完成 AI如何学习语言中描述的过程之后?,人工智能通过语法归纳的过程知道一种语言的语法。他们会说这种语言,但他们学会了正式的语法。但是今天的大多数对话,即使是正式的对话,都使用惯用短语。是否有可能为 AI 提供一组习语,例如,
身临其境
在德语中,它的意思是“放轻松”,但是如果被告知将“放轻松”翻译成德语,语法归纳的 AI 不会想到这一点。如果被要求翻译这个,它会输出
总是与安静
那么,有可能教人工智能使用惯用语来跟上人类的文化吗?
在 AI 完成 AI如何学习语言中描述的过程之后?,人工智能通过语法归纳的过程知道一种语言的语法。他们会说这种语言,但他们学会了正式的语法。但是今天的大多数对话,即使是正式的对话,都使用惯用短语。是否有可能为 AI 提供一组习语,例如,
身临其境
在德语中,它的意思是“放轻松”,但是如果被告知将“放轻松”翻译成德语,语法归纳的 AI 不会想到这一点。如果被要求翻译这个,它会输出
总是与安静
那么,有可能教人工智能使用惯用语来跟上人类的文化吗?
简短的回答:是的。
TL;博士
在存在良好数据集的情况下,这可以通过管道来完成。
长答案
实际上,成语是一系列单词,它们应该具有字面阅读(来源)未表示的语义含义。这意味着使用的任何系统都必须能够一次考虑多个单词。此外,一些习语是上下文相关的。例子:
我们是否相信这是一个非常温文尔雅的渔夫?
那么,有可能教人工智能使用惯用语来跟上人类的文化吗?
请注意,人类不会在语言上“预先加载”成语。所以我们可以有把握地假设习语的使用是一项学习任务,他们跟上的唯一方法就是不断学习。因此,如果我们解决了习语学习任务,我们只需要让我们的代理在线或定期在新生语料库上重新训练它。
一个困难是,在没有标签的情况下,隐喻很容易被误认为是成语,反之亦然。因此语义异常值(对不起,它不是免费的)方法可能会遇到精度问题。例子:
但是,如果数据集很大,则很可能会重复习语,而“自定义隐喻”则不太可能重复。
此外,一些习语(例如咬紧牙关或断腿)没有现成的“可解释的语义”,无法让我们提取它们的预期含义。例如,如果一个人不知道“让我放松一下”这个成语,你可能会想:
“松弛意味着放松或不那么紧/绷紧。我非常紧张。他们可能希望我放松而不是那么挑剔。”
当然,人类对它的理解可能会在一瞬间发生,而不是遵循这样一个划定的路径。这个想法是,一些NLP 管道可能是可构造的,可以在某些特定用例(管道示例)中令人满意地处理习语。例如,一个模块可能会尝试处理具有可解释语义的异常值,例如“未加工的钻石”。不过,像“咬紧牙关”之类的东西可能必须用正确的语义来标记。
我只是触及了这个表面。自然语言理解已经是一个难题——习语因此是一项艰巨的任务。我希望这能激发阅读一些更透彻的文章。我收集了一些可以用作文献跳板的文章。
这是一个使用字典类型方法来训练模型识别习语的来源。摘抄:
为了识别,我们假设数据的形式在哪里是与定义相关的短语和.
此源提供用于成语提取的伪代码。
此来源描述了一个数据集,以帮助解决成语困难。
您是否可以访问正确翻译成语的源语言和目标语言的平行语料库?神经机器翻译。(NMT) 应该处理这个问题。NMT 使用深度学习将一种语言中的序列/单词对与另一种语言进行匹配,现在是翻译 AI 的最先进方法。
我不认为人工智能知道语言的语法。翻译人工智能知道模式,但不一定知道我们小时候在学校学习的语法。这是一种潜在的方法,应该可以提供足够大的语料库和成语示例-github.com/facebookresearch/MUSE