数据挖掘 - 具有多个输出的决策树 - 吾爱随笔录

具有多个输出的决策树

数据挖掘机器学习特征选择决策树机器学习模型

2022-02-26 11:11:30

我有一个包含 10 个自变量（X1、X2、X3 ....）和多个输出标签（y1、y2、y3）的样本。

这里 y1 将取决于 X1, X2

y2 将取决于 X3、X4 等。

y1、y2、y3 可能相关，也可能不相关。

您能否建议将其合并为单个模型的利弊，还是我应该使用具有单个输出的多个模型

X1,X2,y1

X3,X4,y2

......

谢谢

2个回答

您基本上回答了您的问题：如果 y1, y2, y3 是独立的，那么使用单个模型是没有意义的。如果它们是相关的（例如，y1=1 意味着 y2 不是 2），那么单个模型有助于排除不存在的情况。

但是，如果 y1 是 x1 和 x2 的函数，y2 是 x3 和 x4 的函数，并且 x1、x2、x3 和 x4 是独立的，那么 y1 和 y2 也是独立的。

我会从看起来更简单、更合乎逻辑的东西开始。根据您对变量之间弱依赖性的描述，多个模型对我来说似乎更有希望。

虽然我相信 DT/RF 在单一模型中不会有任何挑战，但我更喜欢其他选择。

多种型号

优点-
1.简单且可解释的建模
2.每个数据计数的维度数量较少
3.维护和故障排除简单。每个新开发人员都不必浪费一些时间来弄清楚这一点。
4.如果它们是独立的并且仅与各自的 Y 相关。这可能与数据域有关。因此，对于未来的数据决策而言，保持分离更好
5.根据基础数据模式对不同数据集使用不同模型的自由
6.固有的松散耦合和低内聚

缺点
1.管理 3 个代码/生产实例

其它你可能感兴趣的问题

上一篇正则化会使损失变得嘈杂吗？下一篇如何解释 Weka 中的 PCA 排名