我正在寻找将经过训练的分类模型转换为基于模型结果参数的见解列表的方法。
举个例子,假设我们训练了一个决策树来预测一个二元结果(0 或 1)。我们最终得到了一个具有 7 个节点的简单树(A - 根,B / C - 级别 1,D / E - B 的级别 2,F / G 的级别 2 来自 C)。
从这个模型中,我想建立一个包含所有决策组合的列表(例如 A -> B、A -> C、A -> B -> D 等)和几个参数来优先考虑每个决策的分类能力决定:
- 置信度:当前决策的纯度(例如,分类数据中有多少百分比属于预测类别,“0”或“1”)
- Support:当前决策覆盖的整个数据集的一部分
以下是我列表的示例行,假设:
A -> B 是“特征 N > 5”,80% - 0 / 20% - 1,覆盖 100% 的记录
B -> D 是“特征 K <= 100”,70% - 1 / 30% - 0,覆盖 40% 的记录
(column separator is "|")
Decision | Conditions | Confidence | Support
A -> B | Feature N > 5 | 80% - 0 | 100%
A -> B -> D | Feature N > 5 & Feature K <= 100 | 70% - 1 | 40%
这样的列表可以让我通过在信心和支持之间进行比较来快速找到最具影响力的决策,并准确了解优先决策的条件。第二部分给了我很大的洞察力,可以根据调查结果采取行动。
用例似乎很常见,希望有一些打包的解决方案,但我希望能提供任何关于 Python 初学者如何从头开始处理此任务的指导。
我有一个额外的问题是我们是否可以将其扩展到随机森林模型?