背景:我的团队正在使用对象检测模型研究一些植物生长模式。我们收集了一小部分图像(几千张)并进行了一些简单的实验。结果令人鼓舞,所以现在我们想做一些严肃的数据收集(数万张图像),但在这样做之前,我们想要(创建?)一些“收集协议”,例如:定义分辨率图像,一天中的时间,天气等。
例如,由于我们的应用程序只在白天运行,我们不会收集夜间图像。而且由于我们无法控制天气,我们希望确保我们拥有不同条件下的训练数据,例如雨、雾等。
尽管(我们认为)我们的“收集协议”是合理的,但它仍然是一个临时产品。如果我们有某种“正式的指导方针”,我们会对进行如此广泛的数据收集感觉更好,你知道吗?我已经阅读了多篇讨论如何制作数据集的论文,但它们通常关注“如何标记数据”而不是“如何收集数据”。
你们能推荐一些讨论数据收集过程本身的同行评审论文吗?我们希望避免我们没有考虑过的不明显的陷阱。
提前致谢。