目标编码后解释决策树结果

数据挖掘 决策树 目标编码
2022-03-13 18:57:13

在使用目标编码后,我不确定如何解释决策树的结果,有人可以澄清一下吗?下面的示例不需要目标编码,只是为了解释我在这里的困惑。

例如,我试图根据水果的年龄和水果类型来分类水果是否腐烂。我对水果列使用目标编码:

在此处输入图像描述

然后我得到以下具有默认 sklearn 决策树分类器参数的决策树:

在此处输入图像描述

我相信在编码后我丢失了有关水果类型的信息,我只能说如果fruit_target <= 0.841,那么如果水果较小,则水果会腐烂,否则不会腐烂。但是我如何解释 0.841;这是什么意思?

1个回答

我相信在编码后我丢失了有关水果类型的信息,我只能说如果fruit_target <= 0.841,那么如果水果较小,则水果会腐烂,否则不会腐烂。但是我如何解释 0.841;这是什么意思?

回想一下这个例子中的目标编码实际上是什么:它是每种水果类型的腐烂水果的份额,例如75%的数据点fruit == pear被估计为烂(我说“估计”,因为它取决于目标编码的类型,无论是准确数字还是估计)。

因此,您可以从决策树中推断,如果一个数据点的水果类型超过0.841=84.1%训练集中的烂数据点。