什么是消融研究?是否有系统的方法来执行它?例如,我在线性回归中有预测变量,我将其称为模型。
我将如何对此进行消融研究?我应该使用哪些指标?
一个全面的资源或教科书将不胜感激。
什么是消融研究?是否有系统的方法来执行它?例如,我在线性回归中有预测变量,我将其称为模型。
我将如何对此进行消融研究?我应该使用哪些指标?
一个全面的资源或教科书将不胜感激。
“消融”的本义是手术切除身体组织。“消融研究”一词源于 1960 年代和 1970 年代的实验神经心理学领域,在该领域中,动物的部分大脑被移除以研究这对其行为的影响。
在机器学习,尤其是复杂的深度神经网络的背景下,“消融研究”已被用于描述移除网络某些部分的过程,以便更好地理解网络的行为。
自2018 年 6 月 Keras 深度学习框架的主要作者Francois Chollet 发布推文以来,该术语受到了关注:
消融研究对于深度学习研究至关重要——这一点怎么强调都不为过。了解系统中的因果关系是生成可靠知识(任何研究的目标)的最直接方法。消融是研究因果关系的一种非常省力的方法。
如果您采用任何复杂的深度学习实验设置,您很可能可以移除一些模块(或用随机模块替换一些经过训练的特征)而不会损失性能。摆脱研究过程中的噪音:做消融研究。
无法完全了解您的系统?许多活动部件?想确定它起作用的原因真的与你的假设有关吗?尝试删除东西。将至少约 10% 的实验时间花在诚实地反驳你的论文上。
例如,Girshick 及其同事(2014 年)描述了一个由三个“模块”组成的对象检测系统:第一个提出了使用选择性搜索算法( Uijlings 和同事 2012 年)在其中搜索对象的图像区域,其中输入到执行特征提取的大型卷积神经网络(具有 5 个卷积层和 2 个全连接层),然后输入一组支持向量机进行分类。为了更好地理解该系统,作者进行了一项消融研究,其中系统的不同部分被移除 - 例如,移除 CNN 的一个或两个全连接层导致性能损失非常小,这让作者得出结论
CNN 的大部分表示能力来自其卷积层,而不是来自更大的密集连接层。
OP 要求提供 /how/ 进行消融研究的详细信息,并提供全面的参考资料。我不相信对此有“一刀切”的答案。指标可能会有所不同,具体取决于应用程序和模型的类型。如果我们将问题简单地缩小到一个深度神经网络,那么可以相对直接地看到我们可以以有原则的方式移除层并探索这如何改变网络的性能。除此之外,在实践中,每种情况都是不同的,在大型复杂机器学习应用的世界中,这意味着每种情况都可能需要一种独特的方法。
在 OP(线性回归)示例的上下文中,消融研究没有意义,因为所有可以从线性回归模型中“移除”的都是一些预测变量。以“有原则”的方式执行此操作只是一个反向逐步选择过程,通常不受欢迎 - 请参阅此处、此处和此处了解详细信息。诸如 Lasso 之类的正则化过程是线性回归的更好选择。
参考:
Girshick, R.、Donahue, J.、Darrell, T. 和 Malik, J.,2014 年。用于准确对象检测和语义分割的丰富特征层次结构。在 IEEE 计算机视觉和模式识别会议论文集中(第 580-587 页)。
Uijlings, JR, Van De Sande, KE, Gevers, T. 和 Smeulders, AW, 2013。对象识别的选择性搜索。国际计算机视觉杂志,104(2),pp.154-171。