Tensorflow / Deepmind:我如何从与证明相关的数学算法的观察中采取行动?

数据挖掘 Python 深度学习 张量流 强化学习
2022-02-18 12:46:15

这里交叉发布

这个问题是询问关于使用 deepmind 开源库的方向/建议/帮助:DeepMind Lab或Python 中的TensorFlow

考虑到我是深度学习和人工智能等概念的新手。

问题是:

  • 是否有使用 Deepmind 或 Tensorflow 解决我需要观察值并采取行动的数学问题的示例?

使用类似于本页中描述的基于观察、行动、奖励等的方法,我想调用学习代理在一些值中进行选择。我在想这样的事情:

  • 输入:元组列表的列表(列表将在每一步更改)
  • 行动:从输入中获取一个值(基于经验)
  • 奖励:如果它返回的值对于我正在实施的算法的其余部分是好是坏,我将奖励深度学习代理。

补充笔记:

  • 我无法提前训练算法

输入是这样的:

edge: (1, 2), face_down: 4, face_up: 5, face_left: 4, face_right: 5
edge: (0, 1), face_down: 4, face_up: 4, face_left: 4, face_right: 5
edge: (5, 4), face_down: 4, face_up: 5, face_left: 4, face_right: 5
edge: (6, 7), face_down: 3, face_up: 5, face_left: 5, face_right: 5
edge: (3, 0), face_down: 4, face_up: 4, face_left: 5, face_right: 4
edge: (4, 1), face_down: 4, face_up: 5, face_left: 5, face_right: 4
edge: (8, 5), face_down: 4, face_up: 5, face_left: 5, face_right: 4
edge: (3, 8), face_down: 4, face_up: 5, face_left: 4, face_right: 5
edge: (2, 3), face_down: 4, face_up: 5, face_left: 5, face_right: 4
edge: (5, 0), face_down: 4, face_up: 4, face_left: 5, face_right: 4
edge: (0, 5), face_down: 4, face_up: 4, face_left: 4, face_right: 5
edge: (1, 0), face_down: 4, face_up: 4, face_left: 5, face_right: 4
edge: (9, 6), face_down: 3, face_up: 5, face_left: 5, face_right: 5
edge: (0, 3), face_down: 4, face_up: 4, face_left: 4, face_right: 5
edge: (7, 9), face_down: 3, face_up: 5, face_left: 5, face_right: 5

这个想法是使用与 deepmind 玩游戏相同的方法,但不是分析像素并使用 pad(上、下、左、右、火、跳跃),而是让学习代理分析一些数学值,并且,作为唯一的动作,选择其中之一。

是否有其他方法或库/框架来解决此类问题?

在此处输入图像描述

1个回答

我建议你看看OpenAI 健身房

您将更容易实现描述您的问题的新环境。关于代理,有许多与 OpenAI 兼容的实现。