我现在正在阅读以下博客文章,但是关于 epsilon-greedy 方法,作者暗示 epsilon-greedy 方法以概率 epsilon 随机采取行动,并以概率 1-epsilon 100% 的时间采取最佳行动.
例如,假设 epsilon = 0.6 有 4 个动作。在这种情况下,作者似乎说每个动作都以以下概率采取(假设第一个动作具有最佳价值):
- 行动 1:55% (.40 + .60 / 4)
- 行动 2:15%
- 行动 3:15%
- 行动 4:15%
但是,我觉得我了解到 epsilon-greedy 仅以 epsilon 的概率随机采取行动,否则取决于决定采取行动的策略功能。并且策略函数返回动作的概率分布,而不是具有最佳值的动作的标识符。例如,假设 epsilon = 0.6,每个动作有 50%、10%、25% 和 15%。在这种情况下,采取每个动作的概率应该如下:
- 行动 1:35% (.40 * .50 + .60 / 4)
- 行动 2:19% (.40 * .10 + .60 / 4)
- 行动 3:25% (.40 * .25 + .60 / 4)
- 行动 4:21% (.40 * .15 + .60 / 4)
我的理解在这里不正确吗?epsilon (1 - epsilon) 的非随机部分总是采取最佳行动,还是根据概率分布选择行动?