我有一个电影及其字幕的数据集。我的任务是根据它们的收视率对它们进行分类-[R,NR,PG,PG-13,G]。我尝试了不同的 ML 算法,发现 Logistic 回归完成了所有这些算法,但我无法弄清楚为什么。我的数据比观察具有更多的特征。
SVM-应该在高维数据上表现良好,即使存在类不平衡也会表现良好,但未能显示出很好的结果。朴素贝叶斯——我认为朴素贝叶斯表现不佳是因为类不平衡。随机森林-体面的表现。但没有执行逻辑回归。
我正在寻找一个解释,为什么其中一个比另一个表现更好。
注意:数据集是稀疏的,它比观察/示例具有更多的特征/参数。