ML 模型的性能是否可能比随机分类差?

数据挖掘 机器学习
2021-09-25 01:03:59

我在具有二进制数据的矩阵上实现了不同的机器学习算法,以预测具有两个类的单变量目标。

  • 随机森林(准确度 = 62.01)
  • 神经网络(acc= 58.9)
  • 支持向量机径向内核(精度 = 58.02)
  • 线性判别分析(准确度 = 57.9)
  • 逻辑回归(准确度 = 57.6)。

我的基线准确度是 52.55。但在相同设置中的朴素贝叶斯的情况下,仅给出 48.5 的准确度,仅识别 y 中的一个类。预测。

机器学习模型是否有可能表现得比随机分类更差?

3个回答

是的,这是可能的。

只是意味着模型正在适应噪声,因此它正在评估“错误”的特征。

打个比方,如果你随机猜测篮球比赛的结果,你可能会比那些认为分数越少越好并根据之前比赛的分数猜测的人表现得更好

您的模型可能比随机模型更糟糕,例如,如果违反了某些基本假设,在不平衡的环境中使用准确性作为基线或您有嘈杂的数据等。

但是,在二进制设置中,如果您的类是完全平衡的,并且如果您的分类器始终做出错误的预测(不是由于随机性),您总是可以通过预测与您的模型完全相反的模型来调整模型,使其优于随机模型。

嗯,绝对的。我最近遇到了同样的问题(最终来到了这里)。所以我只是模拟了一个数据集和一个独立的标签(全文在这里

基本上,当没有什么要学习的时候,你的模型会产生与标签不相关的预测。反过来,这些预测(当重复多次时)显示了错误率的有趣分布(在验证集上评估或使用交叉验证)。

但是,在您的情况下,当其他模型似乎显示相关预测时,一个特定模型无法正常工作,我感到非常惊讶。