我发现这个资源用一个非常简单的例子来解释 q-learning。让它成为一个二维问题,一个矩形而不是一条线,它仍然很简单。唯一的区别是现在还有 2 个可能的操作(向上和向下)。
我的问题是:如果矩形的长度和高度是随机的,以及宝藏的起始位置和位置,机器人如何将获得的知识应用于新问题?是否有针对动态状态问题的 q-learning 的进化版本?
我发现这个资源用一个非常简单的例子来解释 q-learning。让它成为一个二维问题,一个矩形而不是一条线,它仍然很简单。唯一的区别是现在还有 2 个可能的操作(向上和向下)。
我的问题是:如果矩形的长度和高度是随机的,以及宝藏的起始位置和位置,机器人如何将获得的知识应用于新问题?是否有针对动态状态问题的 q-learning 的进化版本?
如果矩形的长度和高度是随机的,以及宝藏的起始位置和位置,机器人如何将获得的知识应用于新问题?
这里有两种可能的方法,具体取决于问题呈现给您的方式:
如果代理有时间分别学习/计划每个环境,那么您需要一个能够学习每个环境的代理。一个简单的表格 Q 学习代理已经具有这种能力,直到一定规模的问题(其中状态和动作的数量将适合内存,并且可以在模拟中迭代足够多次)。超出这个大小,如果你能提出一个固定的特征集,能够代表代理可以呈现的任何形状和大小的问题,并使用例如 DQN 或其他近似技术,那么你仍然有一个通用的学习机器人。
泛化的机器人在训练期间尝试解决具有变化的新实例需要使用许多变化和更多状态数据进行训练。如果迷宫的形状、大小和布局可以在不同情节之间发生变化,那么这些数据必须成为状态的一部分。这可以大大扩展状态空间,并且需要不同的表示。网格空间的简单表示是将网格的实际映射为矩形“图像”,假设代理开始、墙壁和目标位置几乎可以在空间内的任何位置。如果迷宫有很多对象,那么您可以将每种对象类型放入单独的“通道”中,并使用卷积神经网络作为 Q 函数逼近的一部分。如果该区域比较稀疏,只有几个对象(例如,只有代理,
对于关键位置可以在情节之间更改的玩具问题,但仍然可以通过表格代理轻松解决,请参阅Open AI 的 Taxi-V2,这是一个经典控制问题的实现,其中子目标和目标的位置是每集随机。