具有多个输出的决策树

数据挖掘 机器学习 特征选择 决策树 机器学习模型
2022-02-26 11:11:30

我有一个包含 10 个自变量(X1、X2、X3 ....)和多个输出标签(y1、y2、y3)的样本。

这里 y1 将取决于 X1, X2

y2 将取决于 X3、X4 等。

y1、y2、y3 可能相关,也可能不相关。

您能否建议将其合并为单个模型的利弊,还是我应该使用具有单个输出的多个模型

X1,X2,y1

X3,X4,y2

......

谢谢

2个回答

您基本上回答了您的问题:如果 y1, y2, y3 是独立的,那么使用单个模型是没有意义的。如果它们是相关的(例如,y1=1 意味着 y2 不是 2),那么单个模型有助于排除不存在的情况。

但是,如果 y1 是 x1 和 x2 的函数,y2 是 x3 和 x4 的函数,并且 x1、x2、x3 和 x4 是独立的,那么 y1 和 y2 也是独立的。

我会从看起来更简单、更合乎逻辑的东西开始。根据您对变量之间弱依赖性的描述,多个模型对我来说似乎更有希望。

虽然我相信 DT/RF 在单一模型中不会有任何挑战,但我更喜欢其他选择。

多种型号


优点-
1.简单且可解释的建模
2.每个数据计数的维度数量较少
3.维护和故障排除简单。每个新开发人员都不必浪费一些时间来弄清楚这一点。
4.如果它们是独立的并且仅与各自的 Y 相关。这可能与数据域有关。因此,对于未来的数据决策而言,保持分离更好
5.根据基础数据模式对不同数据集使用不同模型的自由
6.固有的松散耦合和低内聚


缺点
1.管理 3 个代码/生产实例