贝叶斯平均编码可以提供帮助

主要问题是模型将无法在合并的类别之间进行拆分。因此，您隐含地接受两个合并类别与其他变量之间没有交互。（cat1 和 cat2 的分割顺序相同）

如果你想让树在任何地方分裂（因为你怀疑交互），你必须在 cat1 和 cat2 的值之间创建一个空间来分裂树。贝叶斯均值编码可以帮助您。它在计算目标均值时考虑了类别的频率。

公式如下：

μ = \frac{n * \bar{X} + 米 * w}{n + 米}

$\begin{equation} \mu = \frac{n * \bar{x} + m*w}{n+m} \end{equation}$ 在哪里：

注意：带小 $m$ 您将获得与简单目标编码非常相似的结果，同时稍微移动手段（足以启用拆分）。贝叶斯均值的主要目标是限制过拟合，这在做目标编码时也是一个问题。

这样做没有意义

目标编码背后的想法是假设类别与其他变量没有交互。因此，您将分类空间（高维）转换为一个简单的连续空间，其中只有值很重要。如果您认为该算法可能会混淆两个类别并且这很糟糕，则意味着目标编码不适合。如果不同的类别应该遵循不同的决策路径，那么这意味着类别变量与其他变量之间存在相互作用。

如果您希望每个类别都有不同的决策路径，为什么不保留类别？因为隐含地，树将计算分裂的平均值（在此视频中解释：https ://www.youtube.com/watch?v=g9c66TUylZ4 ）

其它你可能感兴趣的问题