数据挖掘 - 具有附加约束的多目标回归树 - 吾爱随笔录 - 问答

具有附加约束的多目标回归树

数据挖掘回归决策树多输出梯度提升决策树

2021-10-10 07:51:28

我有一个回归问题，我需要预测三个因变量（ $y$ ) 基于一组自变量 ( $x$ ):

(y_{1}, y_{2}, y_{3}) = β_{0} + β_{1} x_{1} + β_{2} x_{2} + \dots + β_{n} x_{n} + u .

$(y_1,y_2,y_3) = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + \dots + \beta_n x_n +u.$

为了解决这个问题，我更喜欢使用基于树的模型（即梯度提升或随机森林），因为自变量 ( $x$ ) 是相关的，并且问题与事前未知参数化是非线性的。

我知道我可以使用 sklearnMultiOutputRegressor()或RegressorChain()作为元估计器。

但是，我的问题还有一个额外的转折，即我确实知道 $y_1 + y_2 - y_3 = x_1$ .

也就是说，三者之间存在着固定的关系 $y$ 和自变量之一。所以本质上，价值 $x_1$ 需要以最佳方式“分发”到（未知）目标 $(y_1,y_2,y_3)$ 对于每个观察，取决于剩余的自变量 $x_2,\dots,x_n$ .

当然，一种天真的方法是，以某种方式将预测值压缩在一起，以满足 $\hat{y_1} + \hat{y_2} - \hat{y_3} = x_1$ . 但是，我想知道是否还有其他选项可以引入“硬约束”，例如 $\hat{y_1} + \hat{y_2} - \hat{y_3} = x_1$ 到一些（基于树的）估计器。

我注意到了这篇文章。但是，出于上述原因，我更喜欢基于树的方法。

1个回答

因此，似乎没有任何开箱即用的东西为此做好准备，但是，我发现了一个例子，有人在做类似于你想用随机森林做的事情。这是链接：http ://astrohackweek.org/blog/multi-output-random-forests.html

其它你可能感兴趣的问题

上一篇命名实体消歧比赛下一篇非确定性学习过程的伦理后果？