是否有一种机器学习模型可以使用标签进行训练,这些标签只说明它是“正确”或“错误”的程度?

人工智能 机器学习 强化学习 张量流 深度学习 楷模
2021-10-18 08:45:14

我正在尝试找到用于输出决策的模型的名称(可能类似于right,leftdo nothing= -1, 0, 1),但可以使用包含“正确”或“不正确”程度的标签进行训练。我试着在我的机器学习课上四处搜索并询问一些朋友,但似乎没有人有答案。

我似乎经常看到的经典例子是蛇游戏中使用的模型。我们不知道什么是正确的决定本身,但我们可以说,如果它撞到了墙上,那真的是错误的。或者如果它得到一个苹果并获得 50 分,那么它是正确的,如果它得到 2 个苹果并获得 100 分,那么它就更正确了,等等。

我正在寻找一个不存在确切标签但我们可以惩罚或奖励其决定的网络。

我假设这需要某种修改后的成本函数,但我想这种类型的网络已经存在。我希望有人可以为我提供这种类型的网络的名称,以及是否有类似的 Keras 前端。

1个回答

您正在寻找的东西称为“强化学习”。

强化学习算法将尝试最大化奖励函数。这个奖励代表了一个动作在实际环境中的“好”或“坏”程度。例如,在蛇游戏中,您的奖励将是吃苹果时为正,而蛇撞墙时为负。

有趣的是,通过强化学习,你可以在每一步都没有奖励的情况下学习。在贪吃蛇游戏的情况下,你的代理可以了解到,朝着苹果的方向前进比朝着墙的方向前进要好,即使这个动作都不会直接给出奖励(正面或负面)。

如果你想像你的帖子暗示的那样使用神经网络,那么你应该看看深度 Q 学习,一种强化学习算法,它使用神经网络来学习预测一对夫妇的预期奖励(状态、动作)。