模型在 x 值处预测属于第 1 类概率的原因

数据挖掘 分类 决策树 xgboost 梯度提升决策树
2022-02-15 18:08:43

全部,

这是一个普遍的问题。我有一个二进制分类来预测某人是否富有。我有一个问题,有人问如果某人富有的概率是 0.6 并且另一个人也被赋予了这个概率,那么他们为什么富有的原因是一样的?

我正在使用 xgboost,我的直觉是拒绝。例如,如果我要分析每个人口 > = 0.5、>= 0.6、...等,我会发现他们的特征有什么不同吗?我会说这很难,因为大多数时候结果和目标之间没有线性关系,它可能很复杂。

一般来说,我想我的问题是:如果两个人被赋予相同的 1 类概率 - 给这些人中的每个人这个 0.6 的模型原因是否相同?“原因”是特征/特征值

1个回答

不一定,虽然两个观测值可能属于同一个“组”并最终位于同一个叶节点(因此得到相同的预测值),但也可能有多个观测值组都具有相同的预测值价值。如果在您的示例中是这种情况,当然取决于您使用的数据。手动检查为什么某些观察值具有某个预测值确实是一项耗时的任务,越来越多的方法/python 包可以帮助解释模型的决定,同时越来越关注可解释/可解释的机器学习模型。这种方法的一个例子是使用Shapley 值,它在shappython 包中实现并且可以很容易地应用于树集合(参见链接的 github 页面上的示例)。