在一些较新的机器人技术文献中,系统识别一词具有一定的含义。这个想法不是使用固定模型,而是动态创建模型。所以它等于一个无模型的系统识别。也许对所有人来说都是一个简短的评论,谁不知道这个想法是什么。系统识别意味着,创建一个预测模型,更好地称为正向数值模拟。该模型接受输入并计算结果。它与物理引擎并不完全相同,但两者都使用循环中的模型运行,该模型实时生成输出。
但什么是政策学习?在某处,我读到策略学习等于在线系统识别。那是对的吗?如果是,那么它就没有多大意义,因为强化学习的目标是学习策略。策略是控制机器人的东西。但是如果目标是进行系统识别,那么策略就等于预测模型。也许有人可以降低对不同术语的混淆......
Example Q-learning 是强化学习的一个很好的例子。这个想法是构建一个 q 表,该表控制机器人的运动。但是,如果 online-system-identification 等于策略学习并且这等于 q-learning,那么 q-table 不包含机器人的伺服信号,而只提供系统的预测。这意味着,q-table 相当于一个 box2d 物理引擎,它可以说机器人将拥有的 x/y 坐标。这种解释没有多大意义。或者它是否有意义并且政策的定义完全不同?