人工智能 - Mask R-CNN 如何在图像上自动输出不同数量的物体？ - 吾爱随笔录

最近在看Pytorch官方关于Mask R-CNN的教程。当我在 colab 上运行代码时，发现它在预测期间会自动输出不同数量的通道。如果图像上有 2 个人，它将输出形状为的蒙版2xHxW。如果图像上有 3 个人，它将输出形状为的蒙版3xHxW。

Mask R-CNN 如何改变频道？它里面有for循环吗？

我的猜测是它有区域建议，并根据这些区域输出掩码，然后对它们进行阈值处理（它删除了预测概率低的掩码）。这是正确的吗？