处理线性回归和随机森林中的分类变量

数据挖掘 随机森林 线性回归 分类数据
2021-10-03 20:07:35

在线性回归中,当我们有一个分类解释变量n级别,我们通常删除一个级别并将其称为基线级别并将模型拟合到其余级别。最后的截距是截距加上基线水平的系数。现在我的问题是:

  1. 我选择删除哪个级别有关系吗?我正在研究一个数据集来预测房价。当我在测试集上使用带有截距的线性模型进行预测时,我会得到一些不正确的房屋的负值,因为房价不能为负。但是,当我拟合没有截距的回归时,所有预测值都如预期的那样为正。我想这与我选择的基线水平有关。
  2. 在适合随机森林、KNN、Ridge、Lasso 之前,我是否必须从数据集中的所有分类变量中删除一个级别?!
1个回答
  1. 对于线性回归,我们必须进行一次热编码,它创建的变量数量比分类变量的水平少一倍。在最新的工具中,您不必手动执行它,我已经在 R 中尝试过自动执行此操作。一个热编码对您选择的级别没有影响,它基本上是表示级别 True 或 False 的二进制方式。这将创建只有 1 和 0 的全新变量。

  2. 对于基于树的算法,您基本上不需要应用一种热编码。这些算法足以处理分类变量。

参考:https ://gerardnico.com/wiki/data_mining/dummy