使用贝尔曼方程优化运动规划

数据挖掘 强化学习
2022-02-22 06:05:36

来自蒙大拿州的文章《Kinematics of Contact and Grasp》,如果我有一个球在平面上滚动而没有滑动,运动方程描述如下:

[u˙2ψ]=[M21RψT1+T2Rψ]M1u˙1

(1)对于球来说,(2)为平面。 ψ是之间的接触角x球和平面的坐标轴。K,T,M是曲率形式,扭转和度量张量在时间t相对于球和平面的坐标。

我们有

Rψ=[cosψsinψsinψcosψ]

如何使用 Sutton 和 Barto 的贝尔曼方程对球的运动进行离散路径规划?

vπ(s)=aπ(a|s)sPssa(Rssa+γvπ(s))

根据我的理解,代理是一个球,环境是平面,动作是没有滑动的滚动球,实现的目标是从一点到另一点的运动规划。

目标是如何优化运动中点的路径规划。

我不知道如何确定政策π,以及如何从贝尔曼方程建立一个函数。请留下评论。

1个回答

根据我的理解,代理是一个球,环境是平面,动作是没有滑动的滚动球,实现的目标是从一个点到另一个点的运动规划。

这已经是一个好的开始。尽管如此,我还是建议更具体地清除所有内容。动作不仅是滚动球,还必须是某种指导性控制,例如将球向前移动 1 厘米顺时针转向 10°加速 a - 仅举几例。鉴于此动作集 AaA.Pssa对状态转换概率进行建模 - 如果您处于确定性环境中,则一个状态为常数 1,所有其他状态为 0。R是奖励,这就是它变得棘手的地方。您想找到到达目标的最佳轨迹,因此您希望在代理采取不必要的行动时进行惩罚,从而使代理尽快达到目标。如果你在球到达球门时结束这一集,我会为此推荐一个常数 -1 如果不是这种情况,它必须更复杂,例如球到球门的负距离。这应该是您弄脏双手所需的一切。