为什么以 Q-learning 的名义选择字母 Q?
大多数字母被选为缩写,例如代表政策和代表价值。但我不认为 Q 是任何单词的缩写。
为什么以 Q-learning 的名义选择字母 Q?
大多数字母被选为缩写,例如代表政策和代表价值。但我不认为 Q 是任何单词的缩写。
很抱歉让大家失望了,但是 Q 不代表任何东西 :)
Q-learning 是 Watkins 在 1989 年的博士论文中提出的,见第 96 页。该页面上等式中的 Q 在每一步都以某种方式更新。Q 是给定状态下行动的预期回报,参见第 46 页 Q 的定义。回报是经济或博弈论意义上的,即折扣概率加权回报,而不是像函数回报这样的计算机科学术语。
请注意,他已经使用 P 作为概率,使用 R 作为奖励,所以他抓住了 Q 作为回报。就是这样。选择字母 Q 没有更深层次的含义。
之所以叫 Q-Learning,是因为它使用 Q 值来形成它的估计。通常的学习规则是,并且应该清楚为什么它被称为Q-Learning。
但在我看来,真正的问题是为什么要这样称呼 Q-Learning。虽然似乎没有一个令人满意的答案,但这个链接提到现代强化学习的创始人之一Andrew Barto代表质量,之所以这么称呼是因为它描述了拉动手臂的结果有多好是。