我有一个接收输入并产生输出的 ANN 模型。输出是与环境交互并相应更改输入的动作。网络有一个期望的环境状态,无论如何,它决定期望的响应并在此基础上训练网络。
目前,网络在离散时间工作。我怎样才能使这个网络以连续的方式工作?如果过去或现在有关于连续 AI 的任何研究,您能否提供一些资源和链接?
更具体地说,系统从当前环境状态开始,例如[1 1 1]
,然后产生一个输出。在当前系统中,下一步将系统的最终状态作为输入,例如,[1 2 2]
但我们知道这样的事情不会发生在物理世界中,系统会从[1 1 1]
到,例如,,[1 1 2]
然后到[1 2 2]
,而这个中间步骤是离散时间人工智能无法弄清楚的。
我正在研究的案例是自动驾驶推车的模拟,其中模型无法考虑诸如“您可以转动方向盘的最大速度”之类的微妙事物。我不想将这些复杂性添加到模型中,因为如果模型是完美的,那么结果是确定性的,不需要人工智能。我希望 AI 能够在连续时间内根据系统的当前状态在每个步骤中做出决定。