数据挖掘 - 可解释的AI，计算机是如何对文本进行分类的？ - 吾爱随笔录

我的问题不是关于解释模型或算法

比如触发了哪些神经元，感知器的参数是什么。

我会进一步解释

问题

我有医疗报告，我想分析并从中提取诊断。

我建立了深度神经网络模型并以 80% 的准确率提取了诊断

那很好。

现在，当患者查看结果并说：嗯，您的结果说我有电晕，计算机是怎么知道的？

目前没有办法回答这个问题。

预测模型给我们的是诊断，而不是它是如何被诊断的。

要求

是否有任何机制或技术可以让我们找到计算机是如何做出这个决定的？

如果患者被分类为糖尿病，模型应该识别导致识别的单词。

Results : Diabities

Explanation : 
               the word "Thirst"
               the word "urinating frequently"
               "weight loss"
               "Fatigue"
               "Insulin"

我一直在谷歌上搜索，运气不佳，我不知道在哪里看，主题名称是什么？

知道如何做到这一点，或者至少指导我在哪里可以找到答案？