我有一个gridworld puzzel、一个 agent 和 Target ,我想找到通过 agent 到达 Target 的最佳路径。
gridworld 示例(以 S 为起点,G 为目标点,黑色单元格为悬崖):