数据挖掘 - 解释多类问题中的套索逻辑回归特征系数 - 吾爱随笔录

我有一个包含大量文本特征的数据集，其中目标变量具有三个类。

我已经使用 tf-idf 对特征进行了编码。这导致了具有大量特征的数据集。

我尝试使用套索逻辑回归（在 sklearn，LogisticRegression(penalty='l1')）执行分类，它会自动将一些特征的系数设置为 0，从而为我执行某种特征选择。

LogisticRegression() 的 sklearn 实现使用“one-versus-rest”执行多类分类。也就是说，它训练了三个独立的分类器，分别预测一个特定类别与其他两个类别，然后将每个数据点分配给预测器给出最高概率的类别。

我的数据集中一些特征的系数设置为 $0$ 在所有三个分类器中。然而，其他三个都设置为非零数字。

考虑系数设置为的那些是否正确 $0$ 被所有三个分类器都认为是无信息的，从某种意义上说，考虑到所有其他分类器的存在，它们没有添加新信息？

比较三个分类器中非零系数的大小是否有意义，以找出哪些特征信息量最大？