Web 开发中的客户端/服务器和强化学习中的代理/环境之间是否有类比?

人工智能 强化学习
2021-10-31 05:27:55

我最近遇到了客户端-服务器模型。据我了解,客户端请求服务器,服务器响应响应。在这种情况下,请求和响应都是向量。

在强化学习中,代理通过“动作”与环境进行通信,环境向其发送标量奖励信号。“目标”是从长远来看最大化这个标量奖励信号。

Web 开发中的客户端/服务器和强化学习中的代理/环境之间是否有类比?

1个回答

Web 开发中的客户端/服务器和强化学习中的代理/环境之间是否有类比?

答案是“不是真的”。这里没有任何有用的类比可以让我们从 Web 服务器知识中深入了解 RL,反之亦然。

但是,您可以设置一个代理,其目标是收集信息,并且可用的操作是发出 Web 请求。显然,为了做到这一点,您需要为 Web 服务器使用客户端/服务器模型,代理可以控制客户端 Web 请求,并且环境是万维网的网络和服务器。

构建开放式“网络助手”代理存在一些非常艰巨的挑战。以下是我能想到的一对:

  • 如何描述动作?从以字符串形式组成的原始 Web 请求开始可能会非常令人沮丧。可能您会简化并首先采取行动,即调用具有某些主题描述变体的搜索引擎,然后决定要遵循哪些链接,或者是否优化搜索以更好地获取与该主题相关的站点正在建设中。

  • 如何创建收集信息的奖励模型?第一个主要的绊脚石是衡量代理在任何请求中找到的有用信息的数量。

我认为以自然语言处理的当前水平,让代理自由地根据文本主题描述中的某个目标发现信息是一项非常艰巨的任务,超出了前沿研究。期望任何这样的代理最终与从文本中“理解”主题有任何相似之处,这绝对是不合理的。代理人几乎没有能力区分准确的事实或谎言,或者只是语法正确的胡言乱语。

对于试图通过探索环境进行无监督学习的代理来说,一个有趣的想法是从数据压缩中创建奖励信号。如果代理在处理新信息时能够更有效地压缩其现有的世界模型,它将学到一些关于其环境的有用信息。这是Jürgen SchmidhuberMarcus Hutter等人提出的通用学习代理理念背后的基本概念。对这个想法的研究可能会推动创建更通用的 AI 学习系统——然而,它是 AI 中众多想法中的一个,到目前为止还只是研究,它还没有带来像 AI 网络搜索那样实用的东西助手。