随机森林 (RFs) 是一种具有竞争力的数据建模/挖掘方法。
RF 模型有一个输出——输出/预测变量。
使用 RF 对多个输出进行建模的简单方法是为每个输出变量构建一个 RF。所以我们有 N 个独立的模型,在输出变量之间存在相关性的地方,我们将有冗余/重复的模型结构。确实,这可能非常浪费。同样作为一般规则,更多的模型变量意味着更多的过拟合模型(更少的泛化)。不确定这是否适用于此,但它可能适用。
原则上,我们可以有一个具有多个输出的 RF。预测变量现在是一个向量(n 元组)。每个决策树中的决策节点现在根据阈值向量拆分目标/预测向量集,我认为这个阈值被视为 n 维空间中的一个平面,因此我们可以确定阈值的哪一侧向量每个目标向量都打开。
决策拆分每一侧的最佳预测值是为每一侧的向量计算的平均值(质心)。
在使用单个变量时找到最佳分割点是微不足道的,并且计算速度快/效率高。对于一个 n 元组,我们找不到最优分割(或者至少随着 N 的增加它在计算上变得不可行),但是我们可以使用蒙特卡洛类型的方法(或者蒙特卡洛和局部方法的某种混合)找到接近最优的分割梯度遍历)。
这真的有用吗?也就是说,它会只映射训练对而不进行泛化吗?这种技术是否已经以不同的名称存在?
您可能还想考虑这与受限玻尔兹曼机 (RBM) 和深度信念网络等神经网络有何关系。