数据挖掘 - 哪种数据科学模型最适合预测问题的可解释性？ - 吾爱随笔录

哪种数据科学模型最适合预测问题的可解释性？

数据挖掘回归预测建模决策树数据科学模型

2022-02-14 03:57:27

想象一下，您必须创建一个模型来向利益相关者解释，例如预测价格、重量、销售等。哪些回归模型在可解释性和可解释性方面提供最好的？... 哪种型号最适合这个？

2个回答

我认为线性（通过模型的系数/权重）和基于树的模型（获得重要性）是可解释性的最佳选择。

但这并不限于这些模型，因为您可以使用与模型无关的技术来解释任何模型，即使是那些被认为是“黑盒”的模型。

像：

形状价值观
部分依赖图
酸橙

您可以查看这个很好的资源以了解更多信息。

你不能忘记模型可解释性的一个重要部分是模型性能。拥有一个易于解释的模型但性能不足是没有意义的，因为模型发现的那些结构不能很好地泛化。所以一个合适的模型版本会在解释它时引导你得出“正确”的结论。

对于这种情况，我会保证符号回归（https://en.wikipedia.org/wiki/Symbolic_regression#:~:text=Symbolic%20Regression%20(SR)%20is%20a,starting%20point%20to%20the %20algorithm. )，它允许您将人类可解释的数学方程演变为一个总体。然后，您可以选择在性能和可解释性之间具有最佳折衷的单一模型。

有一些可用的商业软件包，例如 DataModeler ( https://evolved-analytics.com/ )，它允许您发展模型群体，您可以探索帕累托前沿，它为您提供模型之间的最佳权衡简单性（可解释性）和准确性，您可以选择最适合您需求的一种。DataModeler 具有其他功能，可让您进一步探索模型以确定变量重要性等，这可以帮助您向利益相关者解释模型。

还有最近被 Nutonian 收购的 Eureqa ( https://www.datarobot.com/nutonian/ )，但我对这个实现不太熟悉，因为它已作为许多不同功能之一打包到 DataRobot 中。

之前链接的符号回归维基百科页面上提到了一些开源实现，但我不够熟悉，不知道这些实现对用户的友好程度。

其它你可能感兴趣的问题

上一篇编辑距离算法和语音算法之间的交叉下一篇特征和高斯分布（分类）