我正在使用 glmnet 包进行套索回归。我阅读了这些主题:在进行多元回归时,什么时候应该将预测变量居中以及什么时候应该标准化它们?,需要在回归中对数据进行中心化和标准化,以及在 Lasso 之前进行标准化真的有必要吗?.
根据回复,我决定在使用数据之前需要对其进行标准化。不过,我确实有一些问题:
- 我需要标准化预测变量和响应还是仅标准化预测变量?
- 我正在使用函数 scale(myData, center = TRUE, scale = TRUE) 来构建模型,但我想知道当我想用测试数据集进行预测时该怎么做。我想我也应该标准化和集中测试数据,但我该怎么做呢?从初始(训练)数据集中减去平均值并将其除以初始数据集的标准差?
- 当我得到一个结果时,我是否需要“反向缩放”它(使用原始平均值和标准差)还是我已经得到“最终”结果?