“立即向量值反馈”是什么意思?

人工智能 机器学习 术语 监督学习
2021-11-07 05:00:47

在《人工智能引擎:深度学习数学教程简介》一书中,詹姆斯·斯通说

在监督学习中,对每个输入向量的响应是一个输出向量,它接收指定正确输出的即时向量值反馈,并且这个反馈唯一地指代刚刚接收到的输入向量;相比之下,每个强化学习输出向量(动作)通常在动作之后的某个时间接收标量值反馈,并且该反馈信号取决于当前动作之前和之后采取的动作。

我无法理解以粗体格式化的部分。一旦我们有了一组带标签的示例(特征向量和标签对),“反馈”来自哪里?我们校准模型的测试和验证结果(比如基于神经网络的模型)?

2个回答

通过“立即向量值反馈”,它们可能完全意味着您提到的“标记示例”中的标签。

抱歉耽搁了。术语“向量值反馈”与标量值反馈相比较。这意味着(我应该明确表示)是,因为向量值反馈告诉网络正确的答案,提高性能所需的权重变化相当容易计算(例如使用反向传播)。

相反,如果给出标量值反馈(如在强化学习中),则网络只知道其先前的输出有多糟糕,但不知道如何更改权重以改善输出。

一个粗略的类比是向量值反馈告诉你你对一个问题得到了错误的答案,并提供了正确的答案。相比之下,标量值反馈只是告诉你你的答案“有多么错误”,而不是告诉你如何改进你的答案。