知识库现在扮演什么角色,将来扮演什么角色?

人工智能 自然语言处理 知识表示 专家系统 符号计算 知识库
2021-11-14 20:54:51

如今,人工智能似乎几乎等同于机器学习,尤其是深度学习。有人说,深度学习将在这一领域取代传统上对特征工程非常重要的人类专家。据说有两个突破支撑了深度学习的兴起:一方面是神经科学和神经可塑性特别是告诉我们,就像人脑具有高度的可塑性,人工网络可以用来模拟几乎所有的功能;另一方面,计算能力的提高,特别是 GPU 和 FPGA 的引入,极大地提升了算法智能,并使几十年前创建的模型变得非常强大和通用。我要补充一点,过去几年积累的大数据(主要是标记数据)也是相关的。

这些发展将计算机视觉(和语音识别)带入了一个新时代,但在自然语言处理和专家系统中,情况似乎并没有太大变化。

实现神经网络的常识似乎是一项艰巨的任务,但大多数句子、对话和短文本都包含应该从背景世界知识中得出的推论。因此,知识图谱对人工智能非常重要。神经网络可用于构建知识库,但神经网络模型似乎难以利用这些构建的知识库。

我的问题是:

  1. 知识库(例如,谷歌创造的“知识图谱”)是人工智能中一个有前途的分支吗?如果是这样,知识库可以通过哪些方式增强机器学习能力?我们如何将离散的潜在变量合并到 NLU 和 NLG 中?

  2. 为了在 DL 主导的时代生存,知识库(或总称符号方法)的方向在哪里?类似Wolfram的 z 动态知识库是新方向吗?或者有什么新的方向?

我是否错过了一些基本的东西,或者一些解决这些问题的想法?

3个回答

首先,我想指出知识库和(深度)机器学习之间的主要区别,特别是当主要关注“人工智能”而不是“数据科学”时:

  • NN 就像一个黑匣子。即使他们学习了一个数据集并获得了对问题域的泛化能力,你也永远不会知道他们是如何工作的。如果你仔细检查开发模型的细节,你看到的只是数字、权重、弱连接和强连接以及变换函数。训练阶段之前的“特征提取”步骤字面上告诉你:“嘿,人类,你的复杂世界已经够多了,让我们从零开始吧”。在 DL 的情况下,情况更糟!我们甚至看不到选择的有效特征是什么。我不是 DL 专家,但据我所知,DL 的黑匣子更暗!但是知识库是用人类友好的语言编写的。在知识积累阶段之后,您可以看到实体之间的所有联系,更重要的是,你可以解释这些联系。如果你在知识库中剪断了一根线,你的模型只会失去一点力量,你知道它到底会失去什么;例如,断开“冥王星”节点与“太阳系”节点的连接,将告诉您的模型 deGrasse Tyson 告诉我们的内容。但在 ML 模型中,这可能会将其变成纯粹无用的模型:如果您在用于预测哪些行星属于太阳系的 NN 模型中操纵 14 号和 47 号神经元之间的连接会发生什么?!

  • ML 模型只是数据的铭文。他们没有推理的能力,也没有给你推理的能力。另一方面,知识库能够根据您在问题中指出的先验知识进行推断。结果表明,已经用图像分类数据训练的 DL 模型也可以应用于语音检测问题。但这并不意味着 DL 模型可以将其在图像领域的先验知识应用于语音领域。

  • 传统 ML 算法需要大量数据,DL 算法需要大量数据。但是数据集的单个实例将为您创建一个有意义的知识库。

NLP有两个主要的研究课题:机器翻译和问答。实践表明,深度学习在机器翻译问题上效果显着,但在问答挑战中表现得有点愚蠢,特别是当人机对话涵盖的主题领域很广泛时。知识库不是机器翻译的好选择,但可能是高贵问答机的关键。由于机器翻译中重要的只是文本的翻译版本(而且我不在乎机器到底是如何做到的)但是在问答问题中,我不需要鹦鹉谁重复我给他的相同信息,但是一个聪明的生物在我告诉他“苹果是一种水果”之后给了我“苹果是可食用的”并且“

尽管 3 年多前问过这个问题,但这个问题仍然很有趣,虽然我同意原始答案,但可以添加很多内容。

首先,我想指出,“知识库”这个词非常含糊,对不同的人意味着不同的东西。例如,知识库和神经网络之间没有明显的区别。到现在为止,NN 可以如此之大,以至于它本质上像 GPT 一样对知识进行编码。所以区别就变成了接口的问题。并且 NN 不再是不透明的,因为有许多新技术可以用来探索 NN 内部的知识。当混合 AI 以交织的方式将两者结合起来时,符号推理和神经推理之间更根本的区别变得不那么重要了。所以历史上的分歧主要是关于技术,而不是人工智能的本质。

其次,在 NLP 方面,语言作为用于交流的信息的表面形式与知识作为深度信息之间存在根本区别,即使使用传统的数据库技术也无法直接访问。这种根本分歧使历史差异在今天变得更加不重要。NLP 是表面和深层形式之间的相互作用处于人工智能前沿的地方,但现在同样发生在视觉和规划方面。问题变成了——我们如何构建深度知识(无论它是如何表示的)和表面交流之间的接口?目前,自然语言似乎是唯一可行的答案。因此,例如,努力开发一种自然语言界面来替代系统使用的过多查询语言。

我个人的预测是,自然语言将慢慢演变为包括各种技术语言和多模式交互。但完全不清楚这将如何发生。

似乎自动化知识库构建将是不利的。

正如马特加德纳在 2019 年NLP 亮点中指出的那样:

嗯,但我知道,例如,谷歌取消了他们的知识库建设项目,因为没有足够高的精度在他们的产品中真正有用。

被取消的项目Knowledge Vault是2014年8月启动的自动化知识库构建(AKBC)项目。

将知识整合到神经网络中有三种方法:1)预训练模型,如BERTELECTRA2)检索增强生成模型3)像KELM一样将三元组充实为自然文本

在 2020 年的一篇论文REALM: Integrating Retrieval into Language Representation Models中,他们利用检索而不是知识库来丰富神经网络。NeurIPS 2020 EfficientQA 竞赛中最好的系统都依赖于检索。

如该播客所述,正在积极维护的知识库会收到大量注释和管理如果策展和注释不充分,知识库可能无法应用于人工智能。