有谁知道在对时间序列数据进行训练时可用于确定为达到所需状态而采取的下一步行动的算法?
例如,机器人从某个状态开始,然后采取行动进入另一个状态。这在多次迭代中连续发生(想象机器人正在随机探索一个房间)。如果机器人处于特定的起始状态,并且我希望机器人最终处于不同的状态,是否有一种算法可以推荐最佳的下一步操作(或一组下一步操作)以达到最终的期望状态?
我尝试过的一种方法是使用神经网络,将当前状态和下一个状态作为输入,从当前状态到下一个状态的动作作为输出。对于单个状态,网络将知道如何到达下一个所需状态,即一个动作。问题是,如果所需的状态距离许多操作还有很多呢?