我有一个回归问题,我需要预测三个因变量() 基于一组自变量 ():
为了解决这个问题,我更喜欢使用基于树的模型(即梯度提升或随机森林),因为自变量 () 是相关的,并且问题与事前未知参数化是非线性的。
我知道我可以使用 sklearnMultiOutputRegressor()
或RegressorChain()
作为元估计器。
但是,我的问题还有一个额外的转折,即我确实知道 .
也就是说,三者之间存在着固定的关系 和自变量之一。所以本质上,价值 需要以最佳方式“分发”到(未知)目标 对于每个观察,取决于剩余的自变量 .
当然,一种天真的方法是,以某种方式将预测值压缩在一起,以满足 . 但是,我想知道是否还有其他选项可以引入“硬约束”,例如 到一些(基于树的)估计器。
我注意到了这篇文章。但是,出于上述原因,我更喜欢基于树的方法。