我有一个包含 10 个自变量(X1、X2、X3 ....)和多个输出标签(y1、y2、y3)的样本。
这里 y1 将取决于 X1, X2
y2 将取决于 X3、X4 等。
y1、y2、y3 可能相关,也可能不相关。
您能否建议将其合并为单个模型的利弊,还是我应该使用具有单个输出的多个模型
X1,X2,y1
X3,X4,y2
......
谢谢
我有一个包含 10 个自变量(X1、X2、X3 ....)和多个输出标签(y1、y2、y3)的样本。
这里 y1 将取决于 X1, X2
y2 将取决于 X3、X4 等。
y1、y2、y3 可能相关,也可能不相关。
您能否建议将其合并为单个模型的利弊,还是我应该使用具有单个输出的多个模型
X1,X2,y1
X3,X4,y2
......
谢谢
您基本上回答了您的问题:如果 y1, y2, y3 是独立的,那么使用单个模型是没有意义的。如果它们是相关的(例如,y1=1 意味着 y2 不是 2),那么单个模型有助于排除不存在的情况。
但是,如果 y1 是 x1 和 x2 的函数,y2 是 x3 和 x4 的函数,并且 x1、x2、x3 和 x4 是独立的,那么 y1 和 y2 也是独立的。
我会从看起来更简单、更合乎逻辑的东西开始。根据您对变量之间弱依赖性的描述,多个模型对我来说似乎更有希望。
虽然我相信 DT/RF 在单一模型中不会有任何挑战,但我更喜欢其他选择。
多种型号
优点-
1.简单且可解释的建模
2.每个数据计数的维度数量较少
3.维护和故障排除简单。每个新开发人员都不必浪费一些时间来弄清楚这一点。
4.如果它们是独立的并且仅与各自的 Y 相关。这可能与数据域有关。因此,对于未来的数据决策而言,保持分离更好
5.根据基础数据模式对不同数据集使用不同模型的自由
6.固有的松散耦合和低内聚
缺点
1.管理 3 个代码/生产实例