哪种数据科学模型最适合预测问题的可解释性?

数据挖掘 回归 预测建模 决策树 数据科学模型
2022-02-14 03:57:27

想象一下,您必须创建一个模型来向利益相关者解释,例如预测价格、重量、销售等。哪些回归模型在可解释性和可解释性方面提供最好的?... 哪种型号最适合这个?

2个回答

我认为线性(通过模型的系数/权重)和基于树的模型(获得重要性)是可解释性的最佳选择。

但这并不限于这些模型,因为您可以使用与模型无关的技术来解释任何模型,即使是那些被认为是“黑盒”的模型。

像:

  1. 形状价值观
  2. 部分依赖图
  3. 酸橙

您可以查看这个很好的资源以了解更多信息。

你不能忘记模型可解释性的一个重要部分是模型性能。拥有一个易于解释的模型但性能不足是没有意义的,因为模型发现的那些结构不能很好地泛化。所以一个合适的模型版本会在解释它时引导你得出“正确”的结论。

对于这种情况,我会保证符号回归(https://en.wikipedia.org/wiki/Symbolic_regression#:~:text=Symbolic%20Regression%20(SR)%20is%20a,starting%20point%20to%20the %20algorithm. ),它允许您将人类可解释的数学方程演变为一个总体。然后,您可以选择在性能和可解释性之间具有最佳折衷的单一模型。

有一些可用的商业软件包,例如 DataModeler ( https://evolved-analytics.com/ ),它允许您发展模型群体,您可以探索帕累托前沿,它为您提供模型之间的最佳权衡简单性(可解释性)和准确性,您可以选择最适合您需求的一种。DataModeler 具有其他功能,可让您进一步探索模型以确定变量重要性等,这可以帮助您向利益相关者解释模型。

还有最近被 Nutonian 收购的 Eureqa ( https://www.datarobot.com/nutonian/ ),但我对这个实现不太熟悉,因为它已作为许多不同功能之一打包到 DataRobot 中。

之前链接的符号回归维基百科页面上提到了一些开源实现,但我不够熟悉,不知道这些实现对用户的友好程度。