在线性回归中,当我们有一个分类解释变量级别,我们通常删除一个级别并将其称为基线级别并将模型拟合到其余级别。最后的截距是截距加上基线水平的系数。现在我的问题是:
- 我选择删除哪个级别有关系吗?我正在研究一个数据集来预测房价。当我在测试集上使用带有截距的线性模型进行预测时,我会得到一些不正确的房屋的负值,因为房价不能为负。但是,当我拟合没有截距的回归时,所有预测值都如预期的那样为正。我想这与我选择的基线水平有关。
- 在适合随机森林、KNN、Ridge、Lasso 之前,我是否必须从数据集中的所有分类变量中删除一个级别?!