如何将知识库输入语言模型?

数据挖掘 机器学习 深度学习 nlp 伯特 知识图谱
2022-02-21 11:26:53

我是一名 CS 本科生,试图进入 NLP 研究。一段时间以来,我一直想在现有的最先进的语言模型中加入“日常常识推理”;即使他们产生的输出更加合理并与我们的实际世界相一致。尽管确实存在一些常识知识库,如 ConceptNet (2018)、ATOMIC (2019)、OpenMind CommonSense (MIT)、Cyc (1984) 等,但它们以知识图谱、本体和分类法的形式存在。

我的问题是,我如何才能将这些知识库的力量利用到 BERT 和 GPT-2 等电流互感器语言模型中?我们如何使用这些知识库微调这些模型(或者从头开始训练新模型),以便它们保留其语言建模能力,同时通过对我们物理世界的新常识理解得到增强?

如果除了微调之外还有更好的可能性,我愿意接受。

1个回答

在我看来,这是一个非常困难的问题,并且不确定是否可以做到。

符号方法和统计方法很难结合。事实上,统计机器学习方法之所以成为主流,是因为它们比符号方法能更好地解决大多数问题。在 NLP 中尤其如此:基于规则的语言表示的多次尝试(在 80 年代和 90 年代)不仅构建成本高昂,而且它们从未被证明能够覆盖自然语言的全部多样性。

在特定任务中对混合模型进行了各种尝试,但据我所知,与纯统计方法相比,这些混合方法都证明不够好。然而,可行的方法是将资源表示的知识作为统计模型使用的一些特征引入。在这种情况下,模型根本不是符号,但它使用来自符号资源的信息。

也通过对我们物理世界的新常识理解得到增强

小心不要假设这些模型中的任何一个都理解任何东西。他们的结果可能非常有说服力,但这些都不是强大的人工智能自然语言理解远未实现(而且可能永远不会)。您可能能够以某种方式使用符号资源来增强模型的输出,但是让这样的模型对其正在谈论的内容进行一些实际推理是另一回事(至少现在是科幻小说) .