可解释的 AI (XAI) 没有被广泛接受的定义。然而,作为一个经验法则(我的经验法则),如果你不能轻易地向外行(甚至专家)解释它,那么模型或算法就不是(非常)可解释的。还有其他与 XAI 相关的概念,例如问责制(谁负责什么?)、透明度和公平性。
例如,(训练的)决策树的最终决策可以很容易地向(几乎)任何人解释,因此(训练的)决策树是一个相对可解释的模型。请参见第4.4 章。可解释机器学习一书的决策树:使黑盒模型可解释的指南。
人工神经网络 (ANN) 通常被认为不是很容易解释,因为除非您尝试了解网络的哪些部分对 ANN 的输出有贡献(例如,使用分层相关性传播技术),否则您不能立即或者很容易理解 ANN 的输出或决策,因为 ANN 涉及许多非线性函数,这些函数会产生不直观的结果。换句话说,将人工神经网络的每个单元的贡献归因于同一人工神经网络的输出比解释例如决策树的决策更困难。
在深度强化学习 (DRL) 的背景下,ANN 用于近似值或策略函数。首先,这种近似是深度强化学习模型可解释性低的主要原因。
Q-learning 是一种算法,所以它不是一个模型,就像一个人工神经网络。Q-learning 用于学习状态-动作值函数,表示为Q:S×A→R,然后可用于派生另一个功能,即策略,然后可用于采取行动。在某种程度上,Q-learning 类似于梯度下降,因为两者都是机器学习(或优化)算法。这Q函数是环境的模型,给定对于每个状态,它代表可以得到的期望奖励量,因此,以某种方式,学习到的Q函数表示奖励的预测。
是学习的表格Q函数可解释?是的,它是相对可解释的,但是多少呢?你真正需要什么样的解释?这取决于需要解释或解释的上下文和人。强化学习研究人员通常会对Q- 学习、马尔可夫决策过程等,因为通常的 RL 研究人员并不关心涉及人和其他生物生命的真正重要的问题。然而,例如,在医疗保健的背景下,医生可能不仅对“预期最大未来奖励”的解释感兴趣,而且可能对环境、信用分配问题、奖励函数的意义和有效性感兴趣对于需要解决的实际问题,对结果的概率解释(而不仅仅是需要采取的行动),可能的替代良好行动等。
最近,有一些尝试使 RL,特别是深度 RL 更易于解释和解释。在论文Programmatically Interpretable Reinforcement Learning (2019) 中,Verma 等人。提出了一个更可解释(比深度 RL)的 RL 框架,该框架基于以人类可读语言表示的学习策略的思想。在论文InfoRL:Interpretable Reinforcement Learning using Information Maximization (2019) 中,作者专注于学习解决同一任务的多种方法,他们声称他们的方法提供了更多的可解释性。在论文Toward Interpretable Deep Reinforcement Learning with Linear Model U-Trees (2018) 中,作者还声称他们的方法通过分析特征影响、提取规则和突出图像输入中的超像素,有助于理解网络的学习知识。
总而言之,不一定要避免深度强化学习:它取决于上下文(例如,使用深度强化学习来解决视频游戏通常非常好)。然而,在责任是一个问题的情况下,深度强化学习也应该是可解释的,或者也应该考虑更多可解释的替代方案。