我有一个大型图像数据库,这些图像仅部分标记了多个非排他性特征或对象。例如,水下场景可能具有标签water,swimsuit和fish。
问题是它只是部分标记,这意味着标签cat不存在的事实并不意味着图像上没有猫。
训练能够分辨数据集上缺失标签的 CNN 的最佳策略是什么?
图像库上有 23 万张图像,但考虑到可能有多个标签,很难判断完全标记的图像的比例。我能够编写 python 代码并设法使用 keras 在 gpu 上的 mnist 数据集上进行训练。
我有一个大型图像数据库,这些图像仅部分标记了多个非排他性特征或对象。例如,水下场景可能具有标签water,swimsuit和fish。
问题是它只是部分标记,这意味着标签cat不存在的事实并不意味着图像上没有猫。
训练能够分辨数据集上缺失标签的 CNN 的最佳策略是什么?
图像库上有 23 万张图像,但考虑到可能有多个标签,很难判断完全标记的图像的比例。我能够编写 python 代码并设法使用 keras 在 gpu 上的 mnist 数据集上进行训练。
我认为你最好的选择是迁移学习。从已经使用更广泛的数据集训练的模型开始,例如此处提供的数据集。从那里您可以使用您的特定数据集训练模型。然后,您可以将输出节点用于您可用的标签,并且您可以从通常针对数千个不同类别进行训练的预训练模型中获取其他图像的预测。
或者,您可以使用标签集中的所有输出类和“其他”的另一个输出来训练模型。然后,选择输出节点时,可以将其输入与预培训的模型传递给您的数据培训。