在决策树或随机森林中,每棵树都有一组决策节点(其中每个节点都有一个阈值)和一个类标签(或回归值)。
我知道阈值用于与相应的特征值进行比较。据我所知,比较是通过“<”、“>”或“==”谓词进行的。以阈值和特征值作为输入的函数还有什么其他的吗?
在决策树或随机森林中,每棵树都有一组决策节点(其中每个节点都有一个阈值)和一个类标签(或回归值)。
我知道阈值用于与相应的特征值进行比较。据我所知,比较是通过“<”、“>”或“==”谓词进行的。以阈值和特征值作为输入的函数还有什么其他的吗?
对于二进制拆分,只有三种可能的操作(或者如果考虑 one-hot 编码,可以说只有两种)。任何其他类型的拆分都不会是二元的。由于在考虑三元或更复杂的拆分时组合爆炸,几乎每个基于树的模型都仅限于二元拆分。
当然,您可以编写自己的算法,使用递归非二进制拆分。但请注意,您将面临同样的困难,导致绝大多数算法仅限于严格的二进制分割。
看看这个相关的问题。