如何规范关节机器人环境的状态空间?

人工智能 强化学习 机器人技术
2021-10-28 03:31:29

关节机器人环境中状态的常用表示是什么?我的第一个猜测是它是每个关节的一组角度。那是对的吗?我提出问题的原因是,有助于训练神经网络的一个常见技巧是对输入进行归一化,例如设置 mean = 0 和 std dev = 1,或将所有输入值缩放到[0,1], 如果所有输入都是角度[0,2π]. 但是,距离呢?例如,将代理到地面的某个距离或到某个目标位置的距离用作输入是否很常见?在这种情况下,距离的大小可以是任意的并且变化很大。有哪些常见的处理方法?

1个回答

本文可能会提供一些答案https://arxiv.org/pdf/1810.05762.pdf

对于观察/状态,他们不仅使用角度,还使用速度、高度和位置(表 2)。

在 4.2 学习算法中,您可以看到他们提到了这一点,这与您关于规范化的问题有关:

此外,为了稳定性,我们通过维护与过去观察历史的均值和标准差的在线统计数据来美化当前观察结果。