我们如何知道数据的分类边界?

人工智能 分类 图像识别 模式识别 聚类
2021-11-15 23:01:49

考虑一个图像分类问题。从概念上讲,我们有一些高维空间,所有图像都可以表示为点,并且拥有足够大的标记数据集,我们可以构建分类器。但是我们怎么知道我们在这个空间中的数据具有某种结构呢?像这样在二维情况下:

在此处输入图像描述

如果我们有一个包含猫和狗图像的数据集,为什么这两个类别不仅彼此均匀混合,而且在适当的空间中具有某种分布或形状?为什么不能这样:

在此处输入图像描述

1个回答

这是关于结构是什么或可以是什么的经典问题。它直接涉及泛化、模式识别、表面拟合策略中的过度拟合以及学习tabula rasa(拉丁语中的空白板)的概念。潜在的问题是:

  1. 如何确定集合中的数据组织是否与模型密切相关A, 不仅仅是一个随机数据集A组织。

  2. 如何确定集合中的数据组织是否与模型密切相关A, 不是由通常表现出与B?

  3. 我们如何确定它们之间的相互关系AB,特别是因为包含和重叠与上述问题有关?

在问题的第二张图片中,如果A被定义为一个类型的聚类,其最小边界未被另一个类型的实例破坏,每个聚类至少有五个成员,那么如果点的位置是由量子或热噪声和模型生成的,则会发生几个误报旨在阐明聚类。在这种情况下,可能会出现集群,但接近并不代表组织。

在问题的第一张图片中,如果A是太阳系中行星轨道的复合角投影,则图像将显示为噪声。

如果存在第三张月球天空的图像,如果输入不准确的容忍度很高,那么相同的模型可能会产生假阴性。

在复杂系统的测量属性中,很难可靠地检测组织。使用 RBM 或其他方法进行特征提取的目标是检测模式。这些模式是有组织的还是仅仅是明显的,是一种假设,随着分析的数据量的增加,这种假设可能会得到加强或削弱。

如果一个人工智能系统被训练来检测老鼠,但对猫和狗一无所知,那么人们不能假设它会根据啮齿动物和猫的特征之间的关系比啮齿动物和狗的特征之间更密切的关系来区分猫和狗,除非人工智能系统是元- 使用特定的功能概念进行静态训练或编程。