有 2 个不同的 ImageNet 数据集:ImageNet 1k 通常在论文中称为 ImageNet,而完整的 ImageNet 数据集也称为 ImageNet 22k。ImageNet 1k 是 22k 的子集吗?如果是这样,1k 类别在 22k 版本中的表示方式是否相同,或者 1k 版本中某个类别的图像可能是从 22k 版本中的几个不同类别聚合而成的(就像不同的狗品种被合并到“狗”类别中) ? 我能否以某种方式从 22k 版本中删除 1k 版本,并说除 1k 版本之外的 22k 版本的其余部分是完全不同的数据集,甚至是 1k 版本的分布不均的数据集?任何指向一些受信任来源的链接都会很酷。谢谢
ImageNet 1k 是 ImageNet 22k 的子集吗
数据挖掘
机器学习
深度学习
计算机视觉
2022-02-21 14:23:03
1个回答
是的,完整的 ImageNet 是 1k 版本的超集(请参阅Benchmarking Neural Network Robustness to Common Corruptions and Perturbations)。对应于 1k 版本的 1k 同义词集(又名类)也存在于完整的 22k 版本中。所以总共有21841个类,其中1000个和1k版本完全一样(和图像完全一样),另外20841个可以被视为OOD到1k版本数据集(至少它们是这样处理的在 Hendrycks 等人的一篇论文中,使用自我监督学习可以提高模型的鲁棒性和不确定性。