我正在使用 SMO、逻辑回归、贝叶斯网络和简单 CART 算法进行分类。结果形成 WEKA:
Algorithm Sensitivity (%) Specificity (%) Overall accuracy (%)
Bayesian Network 57.49 76.09 65.24
Logistic Regression 64.73 69.86 66.87
SMO 54.32 79.20 64.69
Simple CART 71.88 61.51 67.56
SMO 为我的分类问题提供了最好的结果,因为它正确分类了 79.20% 的类,这对我很重要。我想通过堆叠来提高这种准确性。我试图将其中一些结合起来。在大多数情况下,我无法提高准确性,但将 SMO 与 Logistic 回归叠加起来会稍微提高准确性。
我如何解释为什么将 SMO 与 Logistic 回归叠加起来比其他方法更好?
是否有任何概括,例如组合树分类器在堆叠中给出了很好的结果?堆放时我应该注意什么?
编辑:
Bayesian Network Logistic Reg. SMO CART
Kappa statistic 0.3196 0.3367 0.3158 0.3335
Mean absolute error 0.3517 0.4164 0.3531 0.4107
Root mean squared error 0.5488 0.4548 0.5942 0.4547
Relative absolute error (%) 72.3389 85.65 72.6299 84.477
Root relative squared error (%) 111.3076 92.2452 120.5239 92.2318
Weighted Avg. of F-Measure 0.653 0.671 0.676 92.2318
ROC Area 0.725 0.727 0.668 0.721
实例总数为25106,其中14641个属于a类,10465个属于b类。
=== Confusion Matrix of Simple CART ===
a b <-- classified as
10524 4117 | a = 0
4028 6437 | b = 1
=== Confusion Matrix of SMO ===
a b <-- classified as
7953 6688 | a = 0
2177 8288 | b = 1
=== Confusion Matrix of Logistic Regression ===
a b <-- classified as
9477 5164 | a = 0
3154 7311 | b = 1
由于 SMO 在 b 类成功,而 CART 在 a 类成功,我尝试将这两种算法结合起来。但我无法提高准确性。然后我尝试将 SMO 与 Logistic Regression 结合起来,准确率提高了一点。为什么用逻辑回归集成 SMO 比用 CART 集成 SMO 更好,有什么解释吗?