数据挖掘 - 为什么 LightGBM 的性能不如 SVC（线性内核）？【情绪分析】 - 吾爱随笔录

我已经阅读并听说过强大的 XGBoost，它是当今人们用来解决 Kaggle 挑战的最著名的模型之一。这让我有兴趣发展自己对模型的直觉，所以我决定在我的数据集上尝试 XGBoost，但不幸的是，当我尝试在 mac 上安装 XGBoost 时遇到了很多与依赖相关的问题:(

然而，我做了更多的研究，发现了另一个相关的库，来自微软的 LightGBM，他们声称它比 XGBoost 取得了更好的结果（或者至少是等效的）。因此，我决定改用 LightGBM，因为我在库安装过程中没有遇到任何问题。

我预计该模型的性能应该优于，或者至少与同一数据集上的其他模型相比表现相似。我的数据集包含 14k 个文本文档，并且有 0 或 1 个值，分别将正面和负面情绪作为目标变量。

结果如下图所示，以计数向量器为输入的 LightGBM 以 94.60% 的准确率获得了第 6 位。我很好奇，因为 LightGBM 的准确率不仅低于 SVC，而且低于 Extra Tree 模型（300 个估算器）。

我对这些模型没有足够的基础和扎实的理解，所以我无法对这些结果提出答案。有人可以根据结果给我一个想法或假设吗？

PS。所有模型均经过 5 折交叉验证

model             score
--------------  -------
extraT           0.9528
svc              0.9514
sgd_elas         0.9481
extraT_tfidf     0.9476
svc_tfidf        0.9473
lightGBM         0.9460
sgd_elas_tfidf   0.9458
lightGBM_tfidf   0.9420
randomF          0.9409
randomF_tfidf    0.9345
mulNB            0.9307
berNB            0.9087
berNB_tfidf      0.9087
mulNB_tfidf      0.9036