如何确定用于预测的分类变量

数据挖掘 预测建模 分类数据 预报 预测
2022-01-22 23:22:35

我有一个数据集,其中包含商店和类别的每周销售额。它看起来像这样:

在此处输入图像描述

我想应用梯度提升方法来预测每周销售额。我的问题是:我应该为类别(1 到 7 表示产品类型)和商店(1 到 11)创建虚拟变量吗?

1个回答

简短的回答:的。

梯度提升依赖于决策树您的决策树的叶子以一种方式构建,以最佳地区分您的特征。对于数字特征,这意味着找到最佳分离值以将您的数据集分为两个子集。一个包含值高于或等于该分离值的观测值,而另一个呈现低于该分离值的值。

让叶子根据标准分割数据没有任何意义,例如Store>=5. 但是,有一个分隔符是有意义的,例如Store5=1(对比Store5=0)。这正是为什么在集成方法(例如梯度提升)中为分类值创建虚拟变量的原因。