我正在尝试找到用于输出决策的模型的名称(可能类似于right
,left
或do nothing
= -1
, 0
, 1
),但可以使用包含“正确”或“不正确”程度的标签进行训练。我试着在我的机器学习课上四处搜索并询问一些朋友,但似乎没有人有答案。
我似乎经常看到的经典例子是蛇游戏中使用的模型。我们不知道什么是正确的决定本身,但我们可以说,如果它撞到了墙上,那真的是错误的。或者如果它得到一个苹果并获得 50 分,那么它是正确的,如果它得到 2 个苹果并获得 100 分,那么它就更正确了,等等。
我正在寻找一个不存在确切标签但我们可以惩罚或奖励其决定的网络。
我假设这需要某种修改后的成本函数,但我想这种类型的网络已经存在。我希望有人可以为我提供这种类型的网络的名称,以及是否有类似的 Keras 前端。