解释 lasso 回归中的系数值

机器算法验证 回归 解释 回归系数 套索
2022-04-14 13:41:39

我正在运行一个套索回归函数。我有大约 45 个特征,我预测 1 个因变量。运行套索回归后,我得到了特征的系数值。

如果我查看系数的大小,它们是否告诉我各个特征对于预测的重要性?例如,系数 = 100 的特征比值为 20 或 0 的特征具有更高的预测能力/重要性。

1个回答

您不能以这种方式比较系数的值。假设你的回应Y以米为单位,你有两个特征X1X2分别以秒和小时为单位。然后你的系数:β1有单位米/秒和β2有单位米/小时 - 这些不能直接比较。更糟糕的是,如果X1以秒为单位,但X2是完全不相关的东西,比如欧姆、库仑、牛顿或流明。

现在,在进行 lasso 回归时,标准化设计矩阵中的列是标准做法,这基本上使所有预测变量无量纲(尽管当系数返回给用户时,它们通常以原始比例表示)。您仍然无法以任何合理的方式比较大小。看到这一点的一个简单方法是考虑以下情况:

Y=X1+X2+ϵcorr(X1,X2)=1

以下任何回归模型都是正确的:

E(YX1,X2)=X1+X2E(YX1,X2)=2X1E(YX1,X2)=2X2E(YX1,X2)=.5X1+1.5X2

等等。当然,在“自然”中发现的情况从来都不是这么明确的,但这说明了您的提案中的基本困难。