聚合目标数据的特征选择

数据挖掘 机器学习 时间序列 特征选择 聚合
2022-03-09 20:17:22

我有一个关于数据集上的特征选择的问题,其中目标变量由不同数据点的总和聚合而成。我想根据各种功能预测销售数量,例如:

  • 星期
  • 每单位价格
  • 商店国家
  • 商店城市
  • 2-3 其他分类元数据
  • 其他特性

我知道这些数据应该被解释为时间序列,但由于缺乏可用的历史数据,没有模型可以与幼稚的方法竞争。

我面临的问题是,目标变量是月份、价格、国家和城市等分组特征的总和。如果我添加或删除其中一个分组特征,我将获得一些相同的数据点并且数据集将不一致,因此我必须执行分组聚合(求和)以恢复一致性。此操作将更改目标变量和数据点的数量。我不知道如何验证在不同特征子集上训练的回归模型,因为基础数据集不相等。我知道除了提供解决方法的过滤器或嵌入式等包装器方法之外,还有其他特征选择技术,但我想知道是否有解决此问题的技术。

例子:

    week  price_per_unit store_country  sales
0      1             3.0            C1     30
1      1             3.0            C2     32
2      1             4.0            C1     23
3      2             3.5            C1     19
4      2             3.5            C2     27
5      2             6.5            C1     35
6      3             2.0            C1     17
7      3             3.0            C1     15
8      3             4.0            C2      7
9      4             2.0            C1     19
10     4             5.0            C1     41
11     4             5.0            C2     21

删除列 store_country 后:

    week  price_per_unit  sales
0      1             3.0     30
1      1             4.0     23
2      1             3.0     32
3      2             6.5     35
4      2             3.5     19
5      2             3.5     27
6      3             2.0     17
7      3             3.0     15
8      3             4.0      7
9      4             5.0     41
10     4             2.0     19
11     4             5.0     21

现在有重复的数据点并且销售列是错误的,因为我需要总和,所以在聚合后我有:

   week  price_per_unit  sales
0     1             3.0     62
1     1             4.0     23
2     2             3.5     46
3     2             6.5     35
4     3             2.0     17
5     3             3.0     15
6     3             4.0      7
7     4             2.0     19
8     4             5.0     62

假设我想使用线性回归执行前向或后向选择。在每一步中,都会添加或删除一列。所以行数取决于选择的特征。我想不出一个衡量标准来比较这些回归模型。

1个回答

在我看来,这两个步骤之间有些混淆:

  1. 设计问题并相应地准备数据
  2. 将 ML 方法应用于数据(特征选择等)

这两个步骤必须是不同的:任何聚合都必须在步骤 1 期间进行,以便在步骤 1 结束时数据集是固定的。

在您的第 1 步示例中,您决定在给定周数和每单位价格的情况下预测各商店的总销售额。请注意,您还可以选择其他选项:

  • 以商店为目标的平均销售量
  • 为每个商店保留一行:根据目标,有时数据中存在不一致是可以的,回归可以处理这些。
  • 您可以决定商店的实例跨越过去 N 周,并提供这几周的销售额,目标是在那之后的一周(顺便说一句,这可能会有所帮助)。
  • ...

当然,您可以根据需要多次执行此操作来研究不同的问题,每次都获得代表特定问题的不同版本的数据。只有在正式定义问题并为其格式化数据后,机器学习部分才会开始。例如,如果在步骤期间修改/聚合数据,则逐步回归(或任何其他技术)将无法工作。