如何可靠地学习 3D 方向?

数据挖掘 机器学习 神经网络
2021-10-02 15:49:22

我正在研究用于 3D 骨骼角色动画的神经网络模型,我在其中学习关节位置和方向。问题与方向有关。我可以选择几种方式来表示 3D 旋转,但它们都有某种形式的不连续性,这使得我的模型在所有情况下都无法产生稳定的正确旋转。我考虑过的替代方案是:

  • 四元数四元数(或单位四元数)非常常用于 3D 方向,除了单位四元数及其相反表示相同方向外,通常都很好。想出一个损失公式来解释这一点并不难(1 - abs(sum(componentwise_product(q1, q2)))工作正常),但问题是在某些情况下,网络不知何故学会了产生具有两个符号的相同四元数,并且从一个随机“翻转”有时会向另一个签名,中间有一些帧,导致一种“闪烁”。一种可能性是只取“一半”的四元数,例如通过将一个组件固定为正数(然后通过平方差来学习)。但是,它并不总是有效。例如,[0.018, 0.743, 0.557, 0.371],还有一个像[-0.017, 0.870, 0.348, 0.348]; [0.017, -0.870, -0.348, -0.348]这些是相当相似的四元数,但是如果我使第一个分量为正,那么第二个分量将为不正确)。
  • 旋转向量旋转向量具有旋转轴的方向和旋转角度的大小。例如,它们在相位函数神经网络的原始论文中被使用,但它们仍然存在不好的情况。假设向量大小从 0 到 π(更大的角度将沿着相反的轴)。如果您的旋转刚好在 π 的值附近,则旋转矢量将从一个方向“摆动”到相反的方向,再次使网络难以学习它。
  • 欧拉角这些只是以特定顺序沿特定轴(X、Y 或 Z)应用的三个旋转角度。他们通常不鼓励他们,因为他们不是很稳定并且遭受臭名昭著的万向节锁,但除了几何形状,他们仍然有同样的问题。如果我的角度从 -180º 到 180º(或 -π 到 π 的弧度),“边界”中的值总是会导致不稳定。
  • 广泛的旋转编码编码旋转的一种稳定方法是同时给出正弦值和余弦值。因此,例如,我可以同时拥有每个欧拉角的正弦和余弦,或者仅拥有 3D 旋转矩阵的九个值(它们不是正弦和余弦,而是以某种方式从这些值推导出来的,并且也是一个稳定的表示)。然而,这显然会显着增加要学习的值的数量,我会尝试学习它们之间实际上存在关系的独立值。

我还没有找到专门解决这个问题的相关文献,尽管我可能没有使用正确的术语进行搜索。有没有人遇到过这个问题?或者有一些我可以考虑的想法或替代方案?

1个回答

我找到了最小表示和完整旋转矩阵之间的中间解决方案,它使用两个单位向量指示相对于方向的两个正交方向(例如向前和向右)。这些可以通过平方差简单地学习并且易于使用(在我的情况下,动画运行时已经具有计算给定两个方向的方向的功能,考虑到它们可能不是完全正交的)。这种表示每个方向需要 6 个值,不如 3 或 4,但也不是太糟糕,在我的实验中,它似乎工作得一样好,只是没有不稳定的情况。