我使用 Captum 的集成梯度来解释我的 PyTorch 的神经网络。我知道从 github 和原始论文中提到...
正归因分数意味着该特定位置的输入对最终预测做出了积极贡献,而负归因分数则相反。归因分数的大小表示贡献的强度。零归因分数意味着该特定功能没有任何贡献。
但是,人类语言中的积极/消极贡献究竟意味着什么?我必须向我的同事解释这些。
负数是否意味着特征值对该类的预测信息较少?当我对所有值的平均得分如下图所示。人类语言中最负面(或最正面)的分数到底意味着什么?