为什么逻辑回归比 svm 表现更好?

数据挖掘 nlp 随机森林 支持向量机 逻辑回归 朴素贝叶斯分类器
2022-03-06 21:07:45

我有一个电影及其字幕的数据集。我的任务是根据它们的收视率对它们进行分类-[R,NR,PG,PG-13,G]。我尝试了不同的 ML 算法,发现 Logistic 回归完成了所有这些算法,但我无法弄清楚为什么。我的数据比观察具有更多的特征。

SVM-应该在高维数据上表现良好,即使存在类不平衡也会表现良好,但未能显示出很好的结果。朴素贝叶斯——我认为朴素贝叶斯表现不佳是因为类不平衡。随机森林-体面的表现。但没有执行逻辑回归。

我正在寻找一个解释,为什么其中一个比另一个表现更好。

注意:数据集是稀疏的,它比观察/示例具有更多的特征/参数。

3个回答

机器学习文献中有一个定理叫做“没有免费的午餐定理”。NFL 的本质是没有通用模型对每个问题和每个数据集都表现最好。因此,根据 NFL 的说法,您不能期望 SVM 在所有情况和上下文中都优于逻辑回归。如果您的类是线性可分的,那么 SVM 将是完美的,具有 100% 的准确率,但否则您不应该期望它一定会优于逻辑回归。因此,SVM 还是逻辑回归是更好的选择,很大程度上取决于问题和可用的数据集。

作为一个实用指南:线性分类器(例如 LR)可以在极其稀疏的数据集上表现得非常好。

我的猜测是,由于您拥有比 obs 更多的功能,因此存在将每个类与其他类分开的仿射子空间的可能性更大。即你的数据变成线性可分的。自从登录。回归有一个线性边界,应该很容易找到它。

我无法解释其他人的糟糕表现。您是否为 SVM 使用线性内核?如果没有,请尝试一下。