首先,让我说我在这里有点超出我的深度,所以如果这个问题需要重新措辞或关闭为重复,请告诉我。可能只是因为我没有合适的词汇来表达我的问题。
我正在从事一项图像处理任务,在该任务中我识别图像中的特征,然后根据它们的属性对它们进行分类,包括形状、大小、暗度等。我对图像处理部分非常有经验,但认为我可以改进用于特征分类的方法。
现在,我为每个测量的参数设置阈值,然后根据一些简单的逻辑对特征进行分类,即特征跨越了哪些阈值。例如(实际的属性和分组更复杂,但我试图简化我项目中与这个问题无关的部分),假设我将功能分组到“大与暗”、“大与轻”组中和“小”。然后是一个特征将在“大而黑暗”iff(大小()>sizeThreshold) & (黑暗度()>黑暗阈值)。
目标是使分类与专家级人类所做的分类一致,因此我可以设置阈值以在某些测试集上产生人类和计算机进行的分组之间的最佳匹配,然后希望分类有效新数据很好。
这已经很好地工作了,但是我看到了一种我认为可以修复的特定故障模式。让我们说功能已知属于“Big and Dark”。人类之所以这样分类,是因为虽然只是勉强够大,但它非常非常暗,这在一定程度上弥补了“大”的不足。我的算法无法正确分类这个特征,因为分类是基于严格的二进制逻辑,并且需要跨越所有阈值。
我想通过使我的算法更好地模仿人类引导过程来改善这种失败,其中一个参数的不足可以通过另一个参数的丰富来补偿。为此,我想获取我的特征的每个基本属性,并将它们转换为某种分数,这将是该特征所属组的预测因子。我已经想到了很多方法来做到这一点,但它们大多是临时的想法,基于我在向量微积分和物理学方面的背景。例如,我考虑将每个特征视为特征属性的 ND 空间中的一个向量,并计算每个特征沿某些向量的投影,每个向量都将衡量一个特征属于该组的程度。
我确信有一种更严格和更成熟的技术来做这类事情,但我的统计分析背景相对较弱,所以我正在寻找一个正确的方向。即使是技术的名称,或教科书的链接也会有所帮助。
TL;DR: 在基于大量描述性参数对对象进行分类时,哪些技术很有用?