仅包含过去 n 步价格记录的状态是否部分可观察?

人工智能 强化学习 定义 dqn
2021-11-03 22:36:59

我目前正在做一个 DQN 代理项目,该代理可以根据每小时变化的价格来决定是否对电动汽车进行充电或放电以出售或购买。价格模式也每天都在变化。这项工作的目标是安排最佳的充电/放电动作,以便节省资金。

该状态包含过去的 n 步价格记录、当前电池电量、小时数等,如下所示:

st={pt5,pt4,pt3,pt2,pt1,Et,t}

我想知道这是否是部分可观察的情况,因为代理只能观察过去的 n 步价格,而不是知道每个时间步的每个价格。

任何人都可以评论这个问题吗?

如果这是部分可观察的情况,有没有简单的方法来处理它?

1个回答

如果代理不能完全观察当前状态,但只能部分观察到,则环境是部分可观察的。更具体地说,在完全可观察的 MDP (FOMDP) 中,代理知道环境的当前状态,它可以或不包含(例如,取决于状态是否为马尔可夫)包含理论上采取最佳行动所需的所有信息. 部分可观察 MDP (POMDP) 中,状态不可用或不可观察,因此代理可能不具备理论上采取最佳行动所需的所有信息。

例如,在扑克游戏中,有隐藏的和可观察的牌。在这个游戏中,环境状态可以定义为所有玩家的所有手牌、桌子上的牌以及从牌组中抽取的下一张牌,直到回合结束。如果玩家可以访问所有这些信息,那么环境将是完全可观察的,但通常这些信息是不可用的,因此扑克通常被认为是部分可观察的游戏。

您将状态定义如下

st={pt:tn,Et}

所以,如果你可以访问过去n价格记录,p1:n, 和能级,Et,那么您的环境是完全可观察的。但是,这并不意味着它是一个马尔可夫环境,也就是说,直观地说,你当前的状态足以在理论上采取最优行动。

总而言之,部分可观察性取决于特定问题中状态的定义。马尔可夫性质的概念也与部分可观察性的概念有关。但是,在 MDP 的情况下,马尔可夫属性的概念有一个特定的定义:给定当前状态和一个动作,下一个状态的概率有条件地独立于所有先前的状态和动作,或者更正式地说

P(St+1St,At)=P(St+1St,St1,,S1,At,At1,,A1)

在哪里St+1是下一个状态,St当前状态,At目前的行动,St1,,S1以前的状态和At1,,A1之前的动作。