有许多标签时的好分类器

数据挖掘 分类 方法
2021-09-24 08:42:15

我在问自己,在尝试对具有许多(> 100)标签的数据进行分类时,是否还有比深度人工神经网络更好的方法。有什么建议吗?例如,逻辑回归似乎不适合,因为它的基本形式只支持两个标签,是吗?

2个回答

多类分类有大量可能的候选者。Logit(作为多项式 logit)是众多选项中的一种。

哪种类型的分类器效果最好通常取决于手头的问题,并且取决于许多不同的事情(包括数据的数量和性质以及类平衡)。据我所知,没有任何分类器可以说它通常适用于许多类。但是,您可以尝试随机森林或提升,因为基于树的估计器易于应用并且往往相当“稳健”。

sklearn 页面提供了 sklearn 支持的多类分类器的有用概述:https ://scikit-learn.org/stable/modules/multiclass.html

Python 中的 SKLearn 和 R 中的 VGAM 支持多项逻辑回归,它以与深度学习中的 softmax 扩展 sigmoid 的方式非常相似的方式扩展二元逻辑回归。

多项式逻辑回归不像逻辑回归那样将响应变量视为二项式,而是将响应变量视为多项式(我知道,这太棒了)。然后使用最大似然估计的常用方法(相当于最小化交叉熵损失)拟合回归系数,模型返回每个类别的概率,与逻辑回归相同。

但是,通常的机器学习方法具有多类扩展:SVM、随机森林、k-最近邻、浅层神经网络等。您当然不必直接跳到深度学习。