我很难理解强盗问题和非强盗问题之间的区别。
强盗问题的一个例子是代理游戏老虎机的目标是发现哪台老虎机最有可能返回奖励。智能体学习找到最佳的游戏策略,并被允许在每个时间步拉动一台老虎机的杠杆。每台老虎机都遵循不同的获胜概率。
在我对这个问题的解释中,没有状态的概念。代理可能会利用槽结果来确定状态动作值?例如,如果老虎机在显示三个苹果时支付,则这是一个高于未显示三个苹果的状态值的状态值。
为什么在这个老虎机问题的表述中只有一个状态?由于只有一个动作(“拉动老虎机杠杆”),所以只有一个动作。老虎机的动作是拉动控制杆,开始游戏。
我现在更进一步。RL 代理购买如果购买将影响价格,则该资产的份额是不可观察的。下一个状态是购买股票后的资产价格。如果足够大,那么价格就会受到影响,否则对股价的影响是微乎其微的。根据在每个时间步购买的股票数量,这要么是老虎机问题,要么不是。
这不是强盗问题,如果大,股价受影响?如果是强盗问题小,股价不受影响?
对于给定的 RL 问题,混合强盗和非强盗状态是否有意义?如果是这样,那么解决的方法应该是将问题整体视为不是强盗问题?