描述梯度提升机器或神经网络等算法的机器学习文本经常评论说这些模型擅长预测,但这是以丧失可解释性或可解释性为代价的。相反,单一决策树和经典回归模型被标记为善于解释,但与更复杂的模型(如随机森林或 SVM)相比,预测精度(相对)较差。是否有机器学习模型被普遍接受为代表两者之间的良好权衡?是否有任何文献列举了算法的特征以使其可以解释?(这个问题以前在交叉验证时被问过)
如果有的话,哪些机器学习算法被认为是可解释性和预测之间的良好折衷?
是否有任何文献列举了算法的特征以使其可以解释?
我所知道的唯一文献是Ribero、Singh 和 Guestrin最近发表的论文。他们首先定义了单个预测的可解释性:
通过“解释预测”,我们的意思是呈现文本或视觉工件,以提供对实例组件(例如文本中的单词、图像中的补丁)与模型预测之间关系的定性理解。
作者进一步详细说明了这对于更具体的示例意味着什么,然后使用这个概念来定义模型的可解释性。他们的目标是尝试并且可以说人为地将可解释性添加到原本不透明的模型中,而不是比较现有方法的可解释性。无论如何,这篇论文可能会有所帮助,因为它试图围绕“可解释性”的概念引入更精确的术语。
是否有机器学习模型被普遍接受为代表两者之间的良好权衡?
我同意@Winter 的观点,即用于(不仅是逻辑)回归的弹性网可以被视为预测准确性和可解释性之间良好折衷的一个例子。
对于不同类型的应用领域(时间序列),另一类方法也提供了很好的折衷方案:贝叶斯结构时间序列建模。它继承了经典结构时间序列建模的可解释性,以及贝叶斯方法的一些灵活性。与逻辑回归类似,用于建模的回归方程有助于解释性。有关营销中的一个很好的应用程序和进一步的参考资料,请参阅本文。
与刚才提到的贝叶斯上下文相关,您可能还想查看概率图形模型。它们的可解释性不依赖于回归方程,而是依赖于图形化的建模方式;请参阅 Koller 和 Friedman 的“概率图形模型:原理和技术”以获得很好的概述。
我不确定我们是否可以将上述贝叶斯方法称为“普遍接受的良好权衡”。它们可能没有足够的知名度,特别是与弹性网的例子相比。
是否有机器学习模型被普遍接受为代表两者之间的良好权衡?
我假设擅长预测意味着能够拟合数据中存在的非线性,同时对过度拟合相当稳健。可解释性和能够预测这些非线性之间的权衡取决于所提出的数据和问题。数据科学中真的没有免费的午餐,没有一种算法可以被认为是任何数据集的最佳算法(同样适用于可解释性)。
一般规则应该是,您知道的算法越多,它就越适合您,因为您可以更轻松地适应您的特定需求。
如果我必须为我经常在业务环境中使用的分类任务选择我最喜欢的,我会选择elastic-net 进行逻辑回归。尽管对生成数据的过程有很强的假设,但由于正则化项保持了基本逻辑回归的可解释性,它可以很容易地采用数据。
是否有任何文献列举了算法的特征以使其可以解释?
我建议你选择一本写得很好的书,描述常用的机器学习算法及其在不同场景中的优缺点。此类书的一个例子可以是T. Hastie、R. Tibshirani 和 J. Friedman的 The Elements of Statistical Learning
可能会看到我关于集合的不合理有效性的回答,以及解释与预测的权衡。最小消息长度 (MML, Wallace 2005) 在数据压缩方面给出了解释的正式定义,并激发了这样的期望,即解释通常适合而不会过度拟合,并且好的解释会产生好的、可概括的预测。但它也涉及到为什么集成会更好地预测的正式理论——这个结果可以追溯到(Solomonoff 1964)关于最优预测和完全贝叶斯方法的内在:整合后验分布,不要只选择平均值,中位数,或模式。