使用正则化回归对随机森林进行后处理:偏差如何?

机器算法验证 机器学习 随机森林 正则化 弹性网
2022-04-01 16:46:42

我一直在对随机森林的结果进行回归机器学习算法的后处理,以便尝试比所有树木预测的默认平均值做得更好。统计学习要素的第 16 章讨论了如何以及为什么可以使用正则化回归(在这种情况下是弹性网络)来完成。

另一方面,我经常使用逻辑模型重新校准随机森林的结果,因为我经常看到这个问题中讨论的那种偏差,并且发现一个简单的线性逻辑回归模型往往可以解释它。我发现需要对集成预测进行校准,尝试校准单个树几乎没有效果。

当你想做这两件事时,我不确定如何进行。如果您首先进行弹性网络回归,您将找到用于有偏预测的森林集合的最佳加权均值/子集。我认为没有理由确定这将是重新校准预测的最佳组合。我看不出弹性网分析如何与重新校准同时运行,因为校准是非线性的。

相互优化校准参数以及权重和子集选择的非线性问题是原则上可行的,但对于大型数据集来说似乎几乎难以计算。

谁能提出一条以优化方式实现这两个目标的有效途径?

2个回答

我想就手头的问题添加一些想法,以便讨论继续进行。但是,我提出了其他要考虑的问题,因此其他人可能会对此发表评论。

在阅读这篇文章和突出显示的链接中的文章时,我们尝试通过应用另一种方法(例如弹性网络)来克服 RF 中的偏差(可能在尾部)并纠正 RF 的偏差输出然而,先做一个弹性网,然后做射频,反之亦然,并没有得到一个广受欢迎的解决方案。我们尝试一个接一个地堆叠方法来克服它们的缺点,但没有成功。

在每种方法对方程式中的所有特征做出承诺之后,问题可能隐藏在两种方法的程序使用中。我不是在这里谈论并行性。我的意思是,如果我们为每一个具有其自身功能的功能提供信息会怎样。

当我们执行 RF 来预测某个函数的结果时,我们尝试使用一种和整个方程进行建模换句话说,总和树或所有树的意见就如何处理方程中的所有特征得出一个平均结论。弹性网络在选择进行正则化时也是如此。但是我们同时在所有功能上都这样做,这意味着一个或两个功能会因此产生不利影响。总得有人来拔短稻草f(x)x1x2λ

也许上一张海报所说的Find不是真正的Find,因为它想找到另一种方法来纠正错误行为。也许真正的Find不在于方法的堆叠。如果我们可以通过对每个特征应用一种方法来尝试为每个特征赋予文字会怎样。我没有听说过,直到我自己读了它。我说的是微软的解释 ML 包。虽然此刻y=a0+a1f1(x1)+...+anfn(xn)

它只支持树作为基础学习者(Robert Kübler 博士)

它可能会阐明这个问题。

我只是想给出一些想法,我们可能不得不寻找不同的方式,而不是“纠正”我们的路线。

微软论文: https ://arxiv.org/pdf/1909.09223.pdf

中: https ://towardsdatascience.com/the-explainable-boosting-machine-f24152509ebb

这是一个体面的问题,十年前提出的。聊天很久了。

问题
给定一个随机森林:

  • 输出有偏差
  • 那是经过良好训练的,具有良好的参数,否则是非病态的
  • 与此有一些相似之处(链接

寻找:

  • 用于校准输出的弹性网络回归或其他正则化回归
  • 基于逻辑回归的集成输出校准
  • 如果可能的话,将两者结合起来,以改善结果。

分析: 进行中...