我有一个关于数据集上的特征选择的问题,其中目标变量由不同数据点的总和聚合而成。我想根据各种功能预测销售数量,例如:
- 星期
- 每单位价格
- 商店国家
- 商店城市
- 2-3 其他分类元数据
- 其他特性
我知道这些数据应该被解释为时间序列,但由于缺乏可用的历史数据,没有模型可以与幼稚的方法竞争。
我面临的问题是,目标变量是月份、价格、国家和城市等分组特征的总和。如果我添加或删除其中一个分组特征,我将获得一些相同的数据点并且数据集将不一致,因此我必须执行分组聚合(求和)以恢复一致性。此操作将更改目标变量和数据点的数量。我不知道如何验证在不同特征子集上训练的回归模型,因为基础数据集不相等。我知道除了提供解决方法的过滤器或嵌入式等包装器方法之外,还有其他特征选择技术,但我想知道是否有解决此问题的技术。
例子:
week price_per_unit store_country sales
0 1 3.0 C1 30
1 1 3.0 C2 32
2 1 4.0 C1 23
3 2 3.5 C1 19
4 2 3.5 C2 27
5 2 6.5 C1 35
6 3 2.0 C1 17
7 3 3.0 C1 15
8 3 4.0 C2 7
9 4 2.0 C1 19
10 4 5.0 C1 41
11 4 5.0 C2 21
删除列 store_country 后:
week price_per_unit sales
0 1 3.0 30
1 1 4.0 23
2 1 3.0 32
3 2 6.5 35
4 2 3.5 19
5 2 3.5 27
6 3 2.0 17
7 3 3.0 15
8 3 4.0 7
9 4 5.0 41
10 4 2.0 19
11 4 5.0 21
现在有重复的数据点并且销售列是错误的,因为我需要总和,所以在聚合后我有:
week price_per_unit sales
0 1 3.0 62
1 1 4.0 23
2 2 3.5 46
3 2 6.5 35
4 3 2.0 17
5 3 3.0 15
6 3 4.0 7
7 4 2.0 19
8 4 5.0 62
假设我想使用线性回归执行前向或后向选择。在每一步中,都会添加或删除一列。所以行数取决于选择的特征。我想不出一个衡量标准来比较这些回归模型。