当上下文对于推断的结果应该是什么非常重要时,训练/进行推理的最佳方法是什么?
例如,在下图中,所有人都是直立的,但由于相机的视角,他们的位置会极大地影响他们的骨骼姿势。如果右侧人的 2D 推断骨架位于像素空间中中间人所在的位置,则不应将其视为直立的,即使它现在应该被视为直立。
我假设在训练和推理过程中都会以某种方式输入位置,但我不知道应该使用的技术名称,并且在执行此类场景时是否有任何最佳实践?