在特征选择的上下文中,将具有超过 2 个类别的分类变量重新编码为虚拟变量是很常见的。弹性网络或套索回归等选择方法会选择最佳预测变量,从而可能只选择每个分类变量的一些虚拟变量。我想知道,是否会由于此过程而出现一些问题。我在Quora和一个教程上找到了一些关于该主题的评论,指出该程序应谨慎使用,但没有一般问题。但是,我找不到任何可以遵循的详细文献或任何受过教育的指导方针。
问题:如果没有为模型选择分类变量的所有虚拟变量,是否会出现任何问题?
例如,我可以想象自动选择依赖于类别的顺序和生成的参考类别。假设有一个类别为A、B和C的变量。与将虚拟重新编码为 dummyA 和 dummyB 相比,虚拟重新编码为 dummyB 和 dummyC 可能会导致不同的变量选择。
任何建议或文献都非常感谢!
更新:
根据本的评论,我发现了一些关于套索和组套索比较的文献,这解决了我的问题:
http://pages.stat.wisc.edu/~myuan/papers/glasso.final.pdf
http://people.ee.duke.edu/~lcarin/lukas-sara-peter.pdf
然而,基于该文献,出现了 2 个进一步的问题:
1) 似乎普通套索仍然经常使用,因此组套索在当前文献中并不经常出现。有什么具体原因吗?
2)当我有许多类别的分类变量时,如果我选择整个分类变量,这不是问题吗?或者换句话说,有时使用套索代替组套索是否有利?