评估图像二值化算法准确性的指标?

信息处理 图像处理
2022-02-18 23:33:37

我正在为我的本科项目进行图像二值化。这个想法是在保留最大特征的同时将 RGB 图像转换为二进制图像。我在项目演示中展示了我的算法和 Otsu 算法的结果的比较(即两种算法的输出图像,因此可以进行目视检查)。在视觉检查中,与我开发的算法相比,Otsu 的算法结果具有较少的特征。

审查我们工作的教授说不允许目视检查,我需要可量化的指标来证明我研究的算法更好。图像二值化是一种分割,根据我所做的文献回顾,它不同于值图像分割,它需要将对象与背景分离。

我的研究:

我发现了这个:https ://github.com/xuebinqin/Binary-Segmentation-Evaluation-Tool ,用于评估二值图像分割精度。该技术使用了一个基本事实,其中对象为白色,背景为黑色。使用各种技术将结果与基本事实进行比较。我还发现了 Berkeley Segmentation Dataset,它具有基本事实和脚本来评估分割准确性。但是,这些似乎对我的目的没有用,因为我的项目目标不同。我不知道我应该为我的项目使用哪些指标。

有没有这样的指标?

欢迎对此提出任何想法。

2个回答

我研究的算法更好。

每当你使用“更好”这个词时,你需要用什么指标来定义:可能是各种东西“运行得更快”、“更少的 CPU 或内存”、“更强大的抗噪音”等。是的,这些确实需要可量化的定义,否则您无法对它们进行排序。

在您的情况下,您想要“看起来更好”的东西。这是一个感知排名,因此它要么需要足够准确的人类感知模型,要么需要真实的人类。人类的感知非常复杂,因此在大多数情况下,真实的人类是唯一的选择。

幸运的是,有一个完整的科学分支处理“人类作为测量设备”,称为“心理物理学”。有充分的证据表明,您可以构建涉及人类受试者的明确定义的实验,并且这些实验可以是有意义的、结论性的和高度可重复的。

不幸的是,这并不容易,而且往往很耗时。实验中有很多方面需要仔细控制。例子是

  1. 您的主题组的规模和构成(年龄、性别、种族、文化和社会经济背景、病史等)
  2. 测试材料的选择:图像的数量和种类
  3. 实验本身的设置以及如何将其介绍给受试者。根据您事先告诉人们的内容,很容易产生无意的偏见。
  4. 你问的问题:“哪个更好看?” 是一个与“哪个看起来更现实?”非常不同的问题。这又回到了“更好”的定义:你追求的是现实主义、审美偏好、易于识别,还是别的什么?
  5. 用于回复的答案类别和比例:(四个经典比例是名义、有序、间隔或比率)。两种替代力量选择,也许?
  6. 结果的统计和解释。

我猜在您的情况下,最棘手的部分将是要问什么确切的问题以及如何选择图像。您始终可以通过预先选择支持您所需结果的图像来伪造结果。这种情况经常发生:不是故意的,只是实验者的潜意识偏见。

您想要在那里应用的努力量很大程度上取决于结果需要有多“可靠”。Quick & dirty 适合随意的实验,如果你想快速了解事物的发展趋势。如果你想将它用于论文或论文,你应该阅读心理物理学的基础知识,并仔细记录你如何管理心理物理学实验的不同方面。

可能不是您想听到的,但我建议向大量人(超过 20 人)展示不同的图像,并让他们选择最能代表彩色图像的二进制图像。整理选票。看看其他人是否认为您的图像比其他图像更好。

您要做的是表明您的技术可以更好地帮助人类在二值图像中看到彩色图像的细节。这很难量化。