我有一个包含大量文本特征的数据集,其中目标变量具有三个类。
我已经使用 tf-idf 对特征进行了编码。这导致了具有大量特征的数据集。
我尝试使用套索逻辑回归(在 sklearn,LogisticRegression(penalty='l1'))执行分类,它会自动将一些特征的系数设置为 0,从而为我执行某种特征选择。
LogisticRegression() 的 sklearn 实现使用“one-versus-rest”执行多类分类。也就是说,它训练了三个独立的分类器,分别预测一个特定类别与其他两个类别,然后将每个数据点分配给预测器给出最高概率的类别。
我的数据集中一些特征的系数设置为在所有三个分类器中。然而,其他三个都设置为非零数字。
考虑系数设置为的那些是否正确被所有三个分类器都认为是无信息的,从某种意义上说,考虑到所有其他分类器的存在,它们没有添加新信息?
比较三个分类器中非零系数的大小是否有意义,以找出哪些特征信息量最大?