机器算法验证 - 使用分类变量的虚拟编码进行特征选择是否有问题？ - 吾爱随笔录

在特征选择的上下文中，将具有超过 2 个类别的分类变量重新编码为虚拟变量是很常见的。弹性网络或套索回归等选择方法会选择最佳预测变量，从而可能只选择每个分类变量的一些虚拟变量。我想知道，是否会由于此过程而出现一些问题。我在Quora和一个教程上找到了一些关于该主题的评论，指出该程序应谨慎使用，但没有一般问题。但是，我找不到任何可以遵循的详细文献或任何受过教育的指导方针。

问题：如果没有为模型选择分类变量的所有虚拟变量，是否会出现任何问题？

例如，我可以想象自动选择依赖于类别的顺序和生成的参考类别。假设有一个类别为A、B和C的变量。与将虚拟重新编码为 dummyA 和 dummyB 相比，虚拟重新编码为 dummyB 和 dummyC 可能会导致不同的变量选择。

任何建议或文献都非常感谢！

更新：

根据本的评论，我发现了一些关于套索和组套索比较的文献，这解决了我的问题：

http://pages.stat.wisc.edu/~myuan/papers/glasso.final.pdf

http://people.ee.duke.edu/~lcarin/lukas-sara-peter.pdf

然而，基于该文献，出现了 2 个进一步的问题：

1) 似乎普通套索仍然经常使用，因此组套索在当前文献中并不经常出现。有什么具体原因吗？

2）当我有许多类别的分类变量时，如果我选择整个分类变量，这不是问题吗？或者换句话说，有时使用套索代替组套索是否有利？