如何确定我收集的数据是否足以代表上下文?例如,我正在研究对象检测系统,并且一直在构建图像数据集。我如何知道我的数据集是否代表任务?例如,我需要考虑对象靠近和远离的情况。但是我错过了,甚至没有考虑过的上下文/情况呢?建立数据集有艺术吗?
如何确定数据集是否是上下文的合适表示?
数据挖掘
数据集
数据
2022-02-14 14:20:06
2个回答
在收集数据之前,领域知识用于确定任务可能出现的合理变化。没有必要在数据中捕获专家可能指出的所有变化(例如,一些可能是综合构建的)。但是领域知识确实决定了某个任务可能必须考虑的变化。
话虽如此,然后收集数据,试图匹配领域专家规定的百分比的合理变化。同样,有些甚至可能是后验综合构造的。然后我们有一个有代表性的数据集。
如果数据集证明不足,这意味着需要使用有关任务的新信息来更新领域知识。
一般来说,参考点是最先进的:过去常常有人构建了类似的数据集,可能在不同的领域或考虑到不同的应用程序。他们的工作(通常是发表的学术论文和/或代码)可以用作基线:他们是如何进行的,他们处理了哪些问题以及如何处理,后来发现数据是否存在任何缺陷等。
当在此过程中做出的决定得到最先进技术的支持时,您就有更多的理由来捍卫数据集的质量。当然,这不是保证,但它是一种保险:如果事实证明您的数据集存在缺陷,除非有办法基于类似作品预见问题,否则它不能对您不利。