在 Q-learning 中,是否必须知道智能体最终可能进入的所有可能状态?
我有一个包含 4 个源节点、3 个接收节点和 4 个主链路的网络。初始状态是接收节点拥有最大资源的状态网络。我以随机方式生成从源节点到汇节点的服务请求。这些服务请求是在随机时间步长上生成的,这意味着,从一个状态到另一个状态,网络状态可能保持不变。
当发起一个服务请求时,来自 sink 节点的资源会发生变化,网络状态也会发生变化。
代理的目的是通过将每个服务请求与路径相关联来平衡网络。
我知道在 MDP 中你应该有一个有限的状态集,我的问题是:如果这个有限的状态集应该是所有可能发生的状态,或者只是一个你认为足以优化 Q 的数字-桌子?