什么是地面真相

数据挖掘 机器学习 神经网络 深度学习
2021-09-23 20:41:38

机器学习的背景下,我看到了“地面实况”一词的使用频率很高。我进行了很多搜索,并在Wikipedia中找到了以下定义:

在机器学习中,术语“ground truth”是指训练集分类的监督学习技术的准确性。这在统计模型中用于证明或反驳研究假设。术语“ground truthing”是指为该测试收集适当的客观(可证明)数据的过程。与黄金标准进行比较。

贝叶斯垃圾邮件过滤是监督学习的一个常见例子。在这个系统中,算法被手动教导垃圾邮件和非垃圾邮件之间的区别。这取决于用于训练算法的消息的基本事实 - 基本事实中的不准确将与生成的垃圾邮件/非垃圾邮件判决中的不准确相关。

关键是我真的无法理解这意味着什么。用于每个数据对象的标签还是为每个数据对象提供标签目标函数,或者其他什么?

3个回答

基本事实是您为训练和测试示例的目标变量测量的结果。

几乎所有时候,您都可以安全地将其视为标签。

在某些情况下,它与标签并不完全相同。例如,如果您扩充您的数据集,则基本事实(您的实际测量值)与扩充示例与您分配的标签的关系之间存在细微差别。但是,这种区别通常不是问题。

基本事实可能是错误的。这是一个测量值,其中可能存在错误。在某些 ML 场景中,它也可能是一种主观测量,很难定义潜在的客观事实——例如,您希望将其自动化的专家意见或分析。您训练的任何 ML 模型都将受到用于训练和测试它的基本事实质量的限制,这是 Wikipedia 引文中解释的一部分。这也是为什么已发表的有关 ML 的文章应包含对数据收集方式的完整描述。

基本事实:这就是您希望模型预测的现实。

它可能有一些噪音,但您希望您的模型能够学习导致此基本事实的数据中的潜在模式。实际上,您的模型将永远无法预测基本事实,因为基本事实也会有一些噪音,并且没有模型可以提供百分百的准确度,但您希望您的模型尽可能接近。

这是一个简化的解释:Ground Truth 是统计和机器学习中使用的一个术语,意思是检查机器学习结果与现实世界的准确性。该术语是从气象学中借用的,其中“地面真相”是指现场获得的信息。

您如何获得基本事实:许多选项,但通常人类会评估每个场景并为其赋予正确的标签。例如,您可以将一组图像上传到trainingset.ai,给它们贴上标签(汽车在哪里,行人在哪里等等),这将是您评估或训练 AI 算法的基本事实。