为什么需要对分类变量使用组套索?

数据挖掘 预测建模 线性回归 套索
2022-03-04 22:36:18

从我读过的内容来看,您应该使用组套索来丢弃(类别的)虚拟编码变量还是使用所有这些变量。如果您使用普通套索,那么组中的一些变量可以被丢弃(设置为零),而有些可能不会,但为什么这是一个问题?

假设我们有一个具有 3 个级别(A、B、C)的分类变量,我们对其进行虚拟编码以获得 A、B 列(当 A=B=0 时为 C)。现在,如果我们使用普通套索只保留 A,那么解释不应该是当 A=1 时我们得到 A,而当它为 0 时我们得到 B 或 C,哪一个并不重要( B 或 c) 它是。我错过了什么?

0个回答
没有发现任何回复~