有几个人已经问过“更多数据有帮助吗?”:
我想问“更多的外部数据有帮助吗”?外部是指来自相似但不相等域的数据。例如,如果我们想检测日本的汽车,我会将美国数据集视为外部数据集,因为那里的普通汽车(和街道)看起来不同。或者使用相同类型的对象但使用不同的相机拍摄的数据集。
我问的原因是,许多论文似乎使用外部数据集取得了巨大成功。例如,深度估计方法额外在 CityScape 数据集上进行训练以对 KITTI 数据集执行预测,请参阅论文。同样,外部数据集也经常用于kaggle 比赛。最后,2014 年的一篇论文报告了“令人惊讶的效果”,即对 ImageNet 类的前半部分进行预训练,然后对另一半类进行微调,比仅对后半部分类进行训练产生更好的结果。另一方面,本文在图 2 中报告说,添加新数据集会使错误恶化。因此,你的经验是什么?是否有任何指南或有趣的评论文章?还是您只需要总是“尝试一下”?
编辑:为了澄清,“更多数据”是指更多行(而不是更多列/功能)。更具体地说,我假设存在更多数据对应更多图像的计算机视觉问题。