为了集成决策树,让我解释一下具体情况。我已经将数据集分成 5 个部分,每个协议,例如 TCP、HTTP 等。现在我已经为每个部分训练了一个决策树,并针对我的测试数据集运行它。
我该如何组合这 5 个预测模型。难道我……
a) 结合预测输出,例如 1,0;1,1 为每个单独完成的部分,然后针对测试数据集运行它以识别混淆矩阵。这是实际类,预测类。或者
b) 我是否采用树构建,然后将其他的添加到树模型中,实际上将它们组合起来。
哪种方法应该合适,选项 a 甚至是一个好的解决方案吗?
为了集成决策树,让我解释一下具体情况。我已经将数据集分成 5 个部分,每个协议,例如 TCP、HTTP 等。现在我已经为每个部分训练了一个决策树,并针对我的测试数据集运行它。
我该如何组合这 5 个预测模型。难道我……
a) 结合预测输出,例如 1,0;1,1 为每个单独完成的部分,然后针对测试数据集运行它以识别混淆矩阵。这是实际类,预测类。或者
b) 我是否采用树构建,然后将其他的添加到树模型中,实际上将它们组合起来。
哪种方法应该合适,选项 a 甚至是一个好的解决方案吗?
结合训练模型的流行方法是基于投票的模式:预测被视为加权投票,拥有多数投票的类被选为最终预测,和/或堆叠:预测被视为新训练模型中的特征。
根据手头的领域,这种方法之一可能会对您有所帮助。堆叠(取决于选择的金属学习者)引入了更多的自由,并且可能会引入您正在搜索的概念所不保证的复杂性,而在识别适合您搜索空间中特定问题的子域时,投票不会有太大帮助。
此外,当组合多个分类器时,尝试一些根本不同的方法可能是值得的。