我是一名 CS 本科生,试图进入 NLP 研究。一段时间以来,我一直想在现有的最先进的语言模型中加入“日常常识推理”;即使他们产生的输出更加合理并与我们的实际世界相一致。尽管确实存在一些常识知识库,如 ConceptNet (2018)、ATOMIC (2019)、OpenMind CommonSense (MIT)、Cyc (1984) 等,但它们以知识图谱、本体和分类法的形式存在。
我的问题是,我如何才能将这些知识库的力量利用到 BERT 和 GPT-2 等电流互感器语言模型中?我们如何使用这些知识库微调这些模型(或者从头开始训练新模型),以便它们保留其语言建模能力,同时通过对我们物理世界的新常识理解得到增强?
如果除了微调之外还有更好的可能性,我愿意接受。