如何收集计算机视觉数据集?

数据挖掘 数据集 计算机视觉 物体检测
2022-03-04 09:58:21

背景:我的团队正在使用对象检测模型研究一些植物生长模式。我们收集了一小部分图像(几千张)并进行了一些简单的实验。结果令人鼓舞,所以现在我们想做一些严肃的数据收集(数万张图像),但在这样做之前,我们想要(创建?)一些“收集协议”,例如:定义分辨率图像,一天中的时间,天气等。

例如,由于我们的应用程序只在白天运行,我们不会收集夜间图像。而且由于我们无法控制天气,我们希望确保我们拥有不同条件下的训练数据,例如雨、雾等。

尽管(我们认为)我们的“收集协议”是合理的,但它仍然是一个临时产品。如果我们有某种“正式的指导方针”,我们会对进行如此广泛的数据收集感觉更好,你知道吗?我已经阅读了多篇讨论如何制作数据集的论文,但它们通常关注“如何标记数据”而不是“如何收集数据”。

你们能推荐一些讨论数据收集过程本身的同行评审论文吗?我们希望避免我们没有考虑过的不明显的陷阱。

提前致谢。

1个回答

一些可能有用的提示:

  • 逐步收集数据,同时进行实验。然后根据模型错误分析更新标注任务。

  • 根据用例设计收集的图像类型。换句话说,图像解决方案、一天中的时间等都取决于 ML 模型的用例,我认为您的分析是正确的。