让我一一评估您的每一个观察结果,以便更清楚:
这个决策树的因变量是信用评级,它有两个类别,坏或好。这棵树的根包含该数据集中的所有 2464 个观测值。
如果Good, Bad
是你所说的信用评级,那么是的。你的结论是正确的,所有 2464 个观察值都包含在树的根中。
确定如何分类好或坏信用评级的最有影响的属性是收入水平属性。
值得商榷取决于您如何看待某事具有影响力。有些人可能会争辩说卡片的数量可能是最有影响力的,有些人可能会同意你的观点。所以,你在这里是对的,也是错的。
在我们的样本中,收入低于低收入的大多数人(553 人中的 454 人)的信用评级也很差。如果我要推出无限额的高级信用卡,我应该忽略这些人。
是的,但是如果您考虑从这些人那里获得不良信用的可能性也会更好。但是,即使这样,这门课也会被证明是“否”,这使您的观察再次正确。
如果我要使用此决策树进行预测以对新观察进行分类,是否将叶子中的最大类数用作预测?例如 Observation x 有中等收入,有 7 张信用卡和 34 岁。信用评级的预测分类 = “好”
取决于概率。因此,计算叶子的概率,然后根据它做出决定。或者更简单,使用像 Sklearn 的决策树分类器这样的库来为你做这件事。
另一个新的观察可能是观察 Y,它的收入低于低收入,因此他们的信用评级 =“坏”
同样,与上面的解释相同。
这是解释决策树的正确方法还是我完全错了?
是的,这是解释决策树的正确方法。在选择有影响的变量时,您可能很想动摇,但这取决于很多因素,包括问题陈述、树的构造、分析师的判断等。