为什么没有人使用决策树来进行视觉问答?

人工智能 神经网络 计算机视觉 决策树 可解释的ai 问答
2021-11-07 00:22:05

我正在启动一个涉及计算机视觉、视觉问答和可解释性的项目。我目前正在为我的分类器选择哪种算法——神经网络或决策树。

在我看来,因为我希望我的系统包括可解释性,所以决策树将是最佳选择。决策树是可解释的,而神经网络就像一个黑匣子。

我知道的其他区别是:决策树更快,神经网络更准确,神经网络更擅长建模非线性。

在我对计算机视觉和视觉问答所做的所有研究中,每个人都使用神经网络,似乎没有人使用决策树。为什么?是为了准确吗?我认为决策树会更好,因为它速度快且可解释,但如果没有人将它们用于视觉问题回答,那么它们一定有一个我没有注意到的缺点。

1个回答

对于视觉任务,神经网络模型几乎总是包含许多汇集和卷积的层。特别是卷积非常有用——它们可以使模型更好地泛化到输入,并在输入经过某些线性变换(例如,一些缩放或沿 x 轴的平移)时保持性能。这些特性,以及用于开发和部署神经网络的强大框架,以及它们已被证明广泛产生非常好的结果的事实,是它们被使用的一些原因。

就作为一个黑盒而言,虽然这对于许多应用程序来说都是正确的,但对于基于图像的任务来说实际上并不那么正确。精心设计和训练的卷积神经网络模型的层实际上可以可视化并且非常易于解释;从这些可视化中,通常可以清楚地了解表示的大致工作原理。相比之下,我认为虽然决策树在理论上更容易解释某些任务(例如医疗决策制定),但对于视觉任务来说,情况就不那么简单了,因为我们不是一次解释一个像素的图像。人们几乎总是对图像中更高层次的表示感兴趣(例如,一只猫、一片叶子或一张脸)。决策树往往难以捕捉这些更高级别的表示。

Distill.pub对特征可视化有很好的解释,可能很有趣。