解释多类问题中的套索逻辑回归特征系数

数据挖掘 分类 特征选择 逻辑回归 多类分类
2022-01-22 23:13:17

我有一个包含大量文本特征的数据集,其中目标变量具有三个类。

我已经使用 tf-idf 对特征进行了编码。这导致了具有大量特征的数据集。

我尝试使用套索逻辑回归(在 sklearn,LogisticRegression(penalty='l1'))执行分类,它会自动将一些特征的系数设置为 0,从而为我执行某种特征选择。

LogisticRegression() 的 sklearn 实现使用“one-versus-rest”执行多类分类。也就是说,它训练了三个独立的分类器,分别预测一个特定类别与其他两个类别,然后将每个数据点分配给预测器给出最高概率的类别。

我的数据集中一些特征的系数设置为0在所有三个分类器中。然而,其他三个都设置为非零数字。

考虑系数设置为的那些是否正确0被所有三个分类器都认为是无信息的,从某种意义上说,考虑到所有其他分类器的存在,它们没有添加新信息?

比较三个分类器中非零系数的大小是否有意义,以找出哪些特征信息量最大?

1个回答

欢迎来到本站!

我认为你是对的,所有三个分类器的特征权重 = 0 意味着这些特征不能预测结果。

在比较幅度方面,我不确定绝对值是否真的具有可比性——每个模型都试图预测不同的目标。

但是,您可以以某种方式对系数进行排名,然后比较三个模型中系数的排名。您需要选择一种稳健的方式来对原始系数进行排名,因为它们的范围从正到负 - 例如,-2 这样的强负系数可能比 0.1 的勉强正系数更具预测性。