您如何用外行的术语来描述模型可解释性和模型预测能力之间的权衡?

数据挖掘 机器学习 预测建模 模型选择
2021-09-20 16:14:49

我知道这取决于所提出的数据和问题,但想象一个场景,对于给定的数据集,您可以选择一个相当复杂的非线性模型(尽管很难解释),从而为您提供更好的预测能力,也许是因为模型可能会看到存在的非线性在数据中,或者有一个预测能力较低但更容易解释的简单模型(可能是线性模型或其他模型)。这是一篇非常好的帖子,讨论了如何解释机器学习模型的想法。

行业虽然非常谨慎,但正逐渐对采用更复杂的模型更感兴趣!他们还想清楚地了解权衡吗?数据科学家可能是介于数据团队和决策者之间的人,并且经常需要能够用外行的方式解释这些东西。

我想在这里集思广益,看看您会想出什么类比来向非技术人员描述这种权衡?

2个回答

有趣的问题。我认为您可以通过考虑不同的用例来说明这一点。我听到的一个我喜欢的例子是关于贷款申请的贷款决策。这是一种算法,但由于法规的原因,它不能是严格的“黑匣子”。这个决定必须是有效的,可解释的,因为银行必须给你一个拒绝贷款的理由。所以,对于可以给出二元结果的贷款来说,肯定有更好的算法,但是您是否希望银行只告诉您是或否?

您可以问自己的另一个问题是,您是否有一个业务目标来了解系统,从而为您提供有关输入及其关系的信息以及这些输入的更改如何影响您的结果(预测)。

我最近处理的一个属于这种情况的问题的示例是使用按渠道(电视、广播、数字)的支出来预测每月(周、天)的市场线索数量。这里的目标不仅是预测在给定支出的情况下会产生多少潜在客户,而且还要有一个框架用于优化围绕支出分配的潜在客户生成(即,在电视、广播和数字生成最大数量的潜在客户)。由于这种业务需求,神经网络或 SVM 不会达到我们的目标,因为虽然它们可以提供潜在客户生成的预测,但它们不会提供对输入的理解(按渠道支出)。