使用分类变量的虚拟编码进行特征选择是否有问题?

机器算法验证 分类数据 特征选择 套索 弹性网
2022-04-04 06:42:26

在特征选择的上下文中,将具有超过 2 个类别的分类变量重新编码为虚拟变量是很常见的。弹性网络或套索回归等选择方法会选择最佳预测变量,从而可能只选择每个分类变量的一些虚拟变量。我想知道,是否会由于此过程而出现一些问题。我在Quora和一个教程上找到了一些关于该主题的评论,指出该程序应谨慎使用,但没有一般问题。但是,我找不到任何可以遵循的详细文献或任何受过教育的指导方针。

问题:如果没有为模型选择分类变量的所有虚拟变量,是否会出现任何问题?

例如,我可以想象自动选择依赖于类别的顺序和生成的参考类别。假设有一个类别为ABC的变量。与将虚拟重新编码为 dummyA 和 dummyB 相比,虚拟重新编码为 dummyB 和 dummyC 可能会导致不同的变量选择。

任何建议或文献都非常感谢!

更新:

根据本的评论,我发现了一些关于套索和组套索比较的文献,这解决了我的问题:

http://pages.stat.wisc.edu/~myuan/papers/glasso.final.pdf

http://people.ee.duke.edu/~lcarin/lukas-sara-peter.pdf

然而,基于该文献,出现了 2 个进一步的问题:

1) 似乎普通套索仍然经常使用,因此组套索在当前文献中并不经常出现。有什么具体原因吗?

2)当我有许多类别的分类变量时,如果我选择整个分类变量,这不是问题吗?或者换句话说,有时使用套索代替组套索是否有利?

1个回答

(我在这里写这个只是为了确保这个问题没有“悬而未决”。)

是的,如果我们在带有虚拟变量编码的设计矩阵上运行套索,这可能会成为问题。模型可能只会选择一些级别。就像您提到的那样,这使得我们选择模型的“调整参数”的编码,这将改变我们的估计并且用户必须指定。仅此一项是不可取的,但从实用性的角度来看也是不可取的。如果模型中有一个因子的任何级别,我们将不得不测量该因子,但是只有当它恰好在选定的级别中时,我们才能使用它的值!当该因子的测量成本很高时,这尤其成问题。