数据挖掘 - 目标编码后解释决策树结果 - 吾爱随笔录

数据挖掘决策树目标编码

2022-03-13 18:57:13

在使用目标编码后，我不确定如何解释决策树的结果，有人可以澄清一下吗？下面的示例不需要目标编码，只是为了解释我在这里的困惑。

例如，我试图根据水果的年龄和水果类型来分类水果是否腐烂。我对水果列使用目标编码：

然后我得到以下具有默认 sklearn 决策树分类器参数的决策树：

我相信在编码后我丢失了有关水果类型的信息，我只能说如果fruit_target <= 0.841，那么如果水果较小，则水果会腐烂，否则不会腐烂。但是我如何解释 0.841；这是什么意思？

1个回答

我相信在编码后我丢失了有关水果类型的信息，我只能说如果fruit_target <= 0.841，那么如果水果较小，则水果会腐烂，否则不会腐烂。但是我如何解释 0.841；这是什么意思？

回想一下这个例子中的目标编码实际上是什么：它是每种水果类型的腐烂水果的份额，例如 $75 \%$ 的数据点fruit == pear被估计为烂（我说“估计”，因为它取决于目标编码的类型，无论是准确数字还是估计）。

因此，您可以从决策树中推断，如果一个数据点的水果类型超过 $0.841 = 84.1\%$ 训练集中的烂数据点。

其它你可能感兴趣的问题