XGBoost 分类概率高于 RF 或 SVM?

数据挖掘 r 随机森林 支持向量机 xgboost
2022-02-03 09:26:25

我正在使用随机森林、XGBoost 和 SVM 来分类主队获胜或客队获胜(在大学橄榄球赛中)。我在本赛季的所有比赛中训练了模型。

我遇到了一些有点奇怪且无法解释的事情。我通过减去类概率来计算预测置信度。XGBoost 置信度值的一致性高于随机森林和 SVM。我附上了下面的图片。

我对所有模型进行了一些超参数调整,并根据测试精度使用了最佳参数。

  • 随机森林:
    • 700棵树
    • 随机抽样的 15 个变量(mtries)
    • 5行的最小分割标准。
  • XGBoost:
    • 0.5,学习率
    • gbtree 作为我的助推器
    • 最大深度 6
  • 支持向量机:
    • RBF核
    • C(松弛)为 1
    • 0.01,西格玛

我不清楚我的问题:为什么 XGBoost 更喜欢一个类而不是另一个类?与这些其他方法相比。我试图弄清楚为什么我对 XGboost 的一个类的预测置信度如此之高。

上半场 下半场

2个回答

我不会回答为什么 XGBoost 会给出非常自信的预测,而是会回答为什么随机森林和 SVM 会给出不那么自信的预测。

随机森林概率估计由预测特定类别的森林百分比给出。例如,如果您有100你森林里的树和81其中预测某个类的某个示例,该示例属于该类的概率估计计算为81100=0.81. 由于整体成员的随机性,即使大多数人都这样做,每棵树都不太可能最终得到正确的预测。这使得随机森林的概率估计避开了规模的极端。

SVM 的情况略有不同,因为它们无法直接产生概率估计。通常,Platt 缩放(本质上是逻辑回归)用于将 SVM 输出缩放为概率估计。这具有校准概率估计的额外好处,这意味着预测的概率非常准确 - 换句话说,如果概率为0.8给出一个预测,它实际上大约有一个80%正确的机会。对于像这样有很多噪音的问题(弱队有时确实会获胜,并且有很多难以预测的势均力敌的比赛),这些预测往往不会过于自信。

我没有充分的理由解释为什么 XGBoost 可能过于自信,但过去已经观察到,加法增强模型往往会在不应用训练后校准的情况下提供扭曲的概率估计,例如此处此处此处

附带说明一下,您没有提到 xgboost 的任何正则化参数,所以我知道您没有使用任何正则化参数。一般来说,它并不好,可能会导致过度拟合。

关于您的问题,我的假设是,在您的情况下,xgboost 分类器比其他两种方法更强大,因此更有信心,这由分配给特定类的更高概率表明。

也许 xgboost 甚至过于自信,即过度拟合,但如果没有对看不见的测试数据进行彻底测试,就无法确定。