如果我想要一个可解释的模型,除了线性回归之外还有其他方法吗?

机器算法验证 回归 机器学习 多重回归 解释
2022-02-14 04:39:26

我遇到了一些从不使用线性回归以外的模型进行预测的统计学家,因为他们认为诸如随机森林或梯度提升之类的“机器学习模型”很难解释或“不可解释”。

在线性回归中,假设已经验证了一组假设(误差的正态性、同方差性、无多重共线性),t 检验提供了一种检验变量显着性的方法,据我所知,这些检验在随机森林或梯度提升模型。

因此,我的问题是,如果我想用一组自变量对因变量建模,为了便于解释,我应该总是使用线性回归吗?

4个回答

我很难相信你听到人们这么说,因为这样说是愚蠢的。这就像说您只使用锤子(包括钻孔和更换灯泡),因为它易于使用并提供可预测的结果。

其次,线性回归并不总是“可解释的”。如果您的线性回归模型包含许多多项式项,或者只有很多特征,则很难解释。例如,假设您使用来自MNIST † 的 784 个像素中每个像素的原始值作为特征。知道像素 237 的权重等于 -2311.67 会告诉您有关模型的任何信息吗?对于图像数据,查看卷积神经网络的激活图会更容易理解。

最后,还有同样可解释的模型,例如逻辑回归、决策树、朴素贝叶斯算法等等。

† -正如@Ingolifs 在评论中所注意到的,并且正如在这个线程中所讨论的,MNIST 可能不是最好的例子,因为这是一个非常简单的数据集。对于大多数真实图像数据集,逻辑回归不起作用,查看权重不会给出任何直接的答案。但是,如果您仔细查看链接线程中的权重,那么它们的解释也并不简单,例如预测“5”或“9”的权重没有显示任何明显的模式(见下图,从另一个线程复制)。

决策树将是另一种选择。或 Lasso Regression 来创建稀疏系统。

从 An Introduction to Statistical Learning一书中查看此图。 http://www.sr-sv.com/wp-content/uploads/2015/09/STAT01.png在此处输入图像描述

我同意 Tim 和 mkt 的答案——ML 模型不一定是不可解释的。我会指导您使用描述性机器学习解释,DALEX R 包,它致力于使 ML 模型可解释。

不,这是不必要的限制。有大量可解释的模型,不仅包括(正如 Frans Rodenburg 所说)线性模型、广义线性模型和广义加法模型,还包括用于回归的机器学习方法。我包括随机森林、梯度增强机器、神经网络等。仅仅因为你没有从与线性回归相似的机器学习模型中得到系数,并不意味着它们的工作原理无法被理解。只是需要更多的工作。

要了解原因,我建议阅读这个问题:从随机森林中获取知识它展示了如何让几乎任何机器学习模型都可解释。