如何正确解释决策树?

数据挖掘 预测建模 决策树
2021-09-30 12:06:13

我正在尝试确定我是否正确解释了在线找到的决策树。

  • 这个决策树的因变量是信用评级,它有两个类别,坏或好。这棵树的根包含该数据集中的所有 2464 个观测值。

  • 确定如何分类好或坏信用评级的最有影响的属性是收入水平属性。

  • 在我们的样本中,收入低于低收入的大多数人(553 人中的 454 人)的信用评级也很差。如果我要推出无限额的高级信用卡,我应该忽略这些人。

  • 如果我要使用此决策树进行预测以对新观察进行分类,是否将叶子中的最大类数用作预测?例如 Observation x 有中等收入,有 7 张信用卡和 34 岁。信用评级的预测分类 = “好”

  • 另一个新的观察可能是观察 Y,它的收入低于低收入,因此他们的信用评级 =“坏”

这是解释决策树的正确方法还是我完全错了?

在此处输入图像描述

2个回答

让我一一评估您的每一个观察结果,以便更清楚:

这个决策树的因变量是信用评级,它有两个类别,坏或好。这棵树的根包含该数据集中的所有 2464 个观测值。

如果Good, Bad是你所说的信用评级,那么的。你的结论是正确的,所有 2464 个观察值都包含在树的根中。

确定如何分类好或坏信用评级的最有影响的属性是收入水平属性。

值得商榷取决于您如何看待某事具有影响力有些人可能会争辩说卡片的数量可能是最有影响力的,有些人可能会同意你的观点。所以,你在这里是对的,也是错的。

在我们的样本中,收入低于低收入的大多数人(553 人中的 454 人)的信用评级也很差。如果我要推出无限额的高级信用卡,我应该忽略这些人。

的,但是如果您考虑从这些人那里获得不良信用的可能性也会更好。但是,即使这样,这门课也会被证明是“否”,这使您的观察再次正确。

如果我要使用此决策树进行预测以对新观察进行分类,是否将叶子中的最大类数用作预测?例如 Observation x 有中等收入,有 7 张信用卡和 34 岁。信用评级的预测分类 = “好”

取决于概率因此,计算叶子的概率,然后根据它做出决定。或者更简单,使用像 Sklearn 的决策树分类器这样的库来为你做这件事。

另一个新的观察可能是观察 Y,它的收入低于低收入,因此他们的信用评级 =“坏”

同样,与上面的解释相同。

这是解释决策树的正确方法还是我完全错了?

的,这是解释决策树的正确方法。在选择有影响的变量时,您可能很想动摇,但这取决于很多因素,包括问题陈述、树的构造、分析师的判断等。

是的,你的解释是正确的。树中的每个级别都与一个变量相关(决策树并非总是如此,您可以想象它们更通用)。

  • X 有中等收入,所以你去节点 2,超过 7 张卡片,所以你去节点 5。现在,你已经到了一个叶子节点。您会看到,在您的数据集中,您有 54 个像 X 一样的人,您确定他们的评分为差(可能是一个人根据其他因素进行了此评分。而您有 336 个像 X 的人获得了良好的评分。所以,基于只有这个信息,你可以说 X 可能有一个很好的评级。所以,决策树给了你一个快速但近似的答案。

    • 旁白:这里的 54 对 336 给了你一定的信心。例如,您可以将其视为概率。你可以说P(Good)=336/(54+336)0.86,并且还以各种方式计算置信区间。
  • Y 的收入很低,因此您可以立即查看树并转到节点 1,并说他的评级可能很差,P(Bad)=454/(454+99)0.82.

关于“最具影响力”属性的评论,这实际上取决于树的构建方式,以及您使用的“影响力”定义。因此,您必须询问制作树的人/软件/算法。从表格本身可以看出,这当然是一个重要的属性。