我已经建立了一个逻辑回归分类器,它对我的数据非常准确。现在我想更好地理解为什么它工作得这么好。具体来说,我想对哪些特征做出最大贡献(哪些特征最重要)进行排名,并且理想情况下,量化每个特征对整个模型的准确性(或类似的东西)的贡献程度。我该怎么做呢?
我的第一个想法是根据它们的系数对它们进行排名,但我怀疑这不可能。如果我有两个同样有用的功能,但第一个的传播是第二个的十倍,那么我希望第一个获得的系数低于第二个。是否有更合理的方法来评估特征重要性?
请注意,我并不是想了解功能的微小变化对结果概率的影响程度。相反,我试图了解每个特征在使分类器准确方面的价值。此外,我的目标不是执行特征选择或构建具有较少特征的模型,而是尝试为学习模型提供一些“可解释性”,因此分类器不仅仅是一个不透明的黑盒。