想象一下,您必须创建一个模型来向利益相关者解释,例如预测价格、重量、销售等。哪些回归模型在可解释性和可解释性方面提供最好的?... 哪种型号最适合这个?
哪种数据科学模型最适合预测问题的可解释性?
我认为线性(通过模型的系数/权重)和基于树的模型(获得重要性)是可解释性的最佳选择。
但这并不限于这些模型,因为您可以使用与模型无关的技术来解释任何模型,即使是那些被认为是“黑盒”的模型。
像:
- 形状价值观
- 部分依赖图
- 酸橙
您可以查看这个很好的资源以了解更多信息。
你不能忘记模型可解释性的一个重要部分是模型性能。拥有一个易于解释的模型但性能不足是没有意义的,因为模型发现的那些结构不能很好地泛化。所以一个合适的模型版本会在解释它时引导你得出“正确”的结论。
对于这种情况,我会保证符号回归(https://en.wikipedia.org/wiki/Symbolic_regression#:~:text=Symbolic%20Regression%20(SR)%20is%20a,starting%20point%20to%20the %20algorithm. ),它允许您将人类可解释的数学方程演变为一个总体。然后,您可以选择在性能和可解释性之间具有最佳折衷的单一模型。
有一些可用的商业软件包,例如 DataModeler ( https://evolved-analytics.com/ ),它允许您发展模型群体,您可以探索帕累托前沿,它为您提供模型之间的最佳权衡简单性(可解释性)和准确性,您可以选择最适合您需求的一种。DataModeler 具有其他功能,可让您进一步探索模型以确定变量重要性等,这可以帮助您向利益相关者解释模型。
还有最近被 Nutonian 收购的 Eureqa ( https://www.datarobot.com/nutonian/ ),但我对这个实现不太熟悉,因为它已作为许多不同功能之一打包到 DataRobot 中。
之前链接的符号回归维基百科页面上提到了一些开源实现,但我不够熟悉,不知道这些实现对用户的友好程度。