数据挖掘 - 决策树集成 - 吾爱随笔录

数据挖掘决策树集成建模

2022-02-23 06:28:42

为了集成决策树，让我解释一下具体情况。我已经将数据集分成 5 个部分，每个协议，例如 TCP、HTTP 等。现在我已经为每个部分训练了一个决策树，并针对我的测试数据集运行它。

我该如何组合这 5 个预测模型。难道我……

a) 结合预测输出，例如 1,0;1,1 为每个单独完成的部分，然后针对测试数据集运行它以识别混淆矩阵。这是实际类，预测类。或者
b) 我是否采用树构建，然后将其他的添加到树模型中，实际上将它们组合起来。

哪种方法应该合适，选项 a 甚至是一个好的解决方案吗？

1个回答

结合训练模型的流行方法是基于投票的模式：预测被视为加权投票，拥有多数投票的类被选为最终预测，和/或堆叠：预测被视为新训练模型中的特征。

根据手头的领域，这种方法之一可能会对您有所帮助。堆叠（取决于选择的金属学习者）引入了更多的自由，并且可能会引入您正在搜索的概念所不保证的复杂性，而在识别适合您搜索空间中特定问题的子域时，投票不会有太大帮助。

此外，当组合多个分类器时，尝试一些根本不同的方法可能是值得的。

其它你可能感兴趣的问题