我正在开展一个项目,其中视频数据集有限(大约 200 个)。我们想训练一个可以检测视频中单个类别的模型。该类可以是多种不同类型的形状(细线、大屏幕区域等)。
关于如何标记这些数据,有三个选项:
- 图像分类(图像中某处是此类)
- 边界框(在这个区域,有类)
- 语义分割(这些像素就是类)
我的假设是,如果模型在语义分割数据上进行训练,它的性能会比边界框数据稍好。我还假设它会比模型仅在图像分类数据上学习时表现得更好。那是对的吗?
我正在开展一个项目,其中视频数据集有限(大约 200 个)。我们想训练一个可以检测视频中单个类别的模型。该类可以是多种不同类型的形状(细线、大屏幕区域等)。
关于如何标记这些数据,有三个选项:
我的假设是,如果模型在语义分割数据上进行训练,它的性能会比边界框数据稍好。我还假设它会比模型仅在图像分类数据上学习时表现得更好。那是对的吗?
这取决于你的最终目标是什么。如果您的目标是简单地对图像中的对象进行分类,那么更复杂的输出将无济于事。更简单的输出表示会产生更好的结果。如果您的目标是检测边界框,则输出边界框。不需要更复杂的输出功能。如果使用分割方法进行边界框检测,由于输出特征过多,更容易出错。
假设给你一个 gradr 6 数学测试。如果你用 12 年级的数学知识做题,用微积分之类的东西做,让你的计算看起来更复杂,你的分数会比正常的方法高吗?不!由于在进行复杂计算时出错的可能性更高,因此标记相同甚至更少。
简而言之,如果它是一项简单的任务,标签上的更高复杂性将无助于您的任务。希望这会对您有所帮助,并祝您有美好的一天!