想象一个经过训练可以操纵风门以管理气流的系统。训练数据包括通过复杂管道系统的阻尼器状态和流动特性。然后给系统一个目标(例如保持所有输出的均匀流量)并放松管理阻尼器。当它执行这些功能时,系统能够检测到的结果中存在异常。该算法继续从其自己的经验数据中学习,即实施阻尼器配置的结果,并改进其算法以提高性能,以寻求在所有输出处完美均匀流动的最佳目标。
这种学习或人工智能系统叫什么?
想象一个经过训练可以操纵风门以管理气流的系统。训练数据包括通过复杂管道系统的阻尼器状态和流动特性。然后给系统一个目标(例如保持所有输出的均匀流量)并放松管理阻尼器。当它执行这些功能时,系统能够检测到的结果中存在异常。该算法继续从其自己的经验数据中学习,即实施阻尼器配置的结果,并改进其算法以提高性能,以寻求在所有输出处完美均匀流动的最佳目标。
这种学习或人工智能系统叫什么?
我相信这最好通过深度 Q 学习的强化学习来完成。那就是我要开始的地方。步骤是:
初始化一个 Q 表。
选择一个动作。
执行操作。
衡量奖励。
更新Q。
神经网络将逼近 Q 函数。请参阅:https ://medium.com/emergent-future/simple-reinforcement-learning-with-tensorflow-part-0-q-learning-with-tables-and-neural-networks-d195264329d0
还要考虑策略梯度、actorcritic 和逆强化学习。