Dietterich 介绍了出租车环境(见第 9 页),他指出:“总共有 500 个 [不同的] 可能状态:25 个方格,5 个乘客位置(包括四个起始位置和出租车),以及4 个目的地”(Dietterich,2000 年,第 9 页)。
但是,在我看来,只有 25(网格)* 4(位置)* 2(车上乘客)= 200 个不同的状态,因为对于代理来说,去某个点应该是同一个任务,无论它是否在去接或下车的路上。只有目的地的动作不同,它将被存储为二进制(乘客是否在车内)
迪特里希为什么要提出 500 个州?