基于往年数据预测年度结果的模型

数据挖掘 数据集 预测建模 特征工程 机器学习模型
2022-02-17 01:34:03

我有两年以下的数据集,每个数据集包含大约 10.000 条记录。每周都会生成一份新报告,显示当前或任何前一个月的绩效。因此,最近的每周报告将覆盖先前报告的月度值(针对该特定月份)。我需要根据收到的每周数据来预测今年的表现。

全年数据集的结构

我有两个问题:

  1. 我需要如何构建我的数据集以进行机器学习?如果我保留上述内容,我将获得大约 150 个功能(每周 3 个),我不知道是否有一个 ML 算法可以处理我需要运行的一年中的许多 n/a(所有未来几周)预测。我还可以通过将每周的三列组合成三个特征来将其转换为一个新的数据集(这将导致长窄表)。但这将复制每个实体和输出值大约 50 次(每周一次)。
  2. 基于1的答案。什么是合适的训练算法?
2个回答

我想您需要根据上个月的表现来预测下周的表现。嗯,我认为它或多或少有点像根据之前的数据预测明天的天气。

我想您需要通过将延迟设置为一个月来使用时间序列预测模型(ARIMA 或 LSTM)。您可以通过添加延迟层作为参数来构建一个简单的深度学习模型

看起来您每周都会收到相同的 4 项功能 - 即 ID、日历周、日历月、月度绩效。

我建议垂直堆叠 - 将每个新周的数据添加到现有数据的底部。

创建额外的特征来改进预测也可能是一个好主意。一些示例可能包括创建某种形式的日期变量或一些滚动的年度绩效总额。一些算法允许更多地强调某些观察;这在时间序列问题中可能很方便,因为您可以将更多权重放在最近的数据上。

最后,您可能需要执行一些数据转换——例如编码分类变量、缩放/居中数值变量。这实际上取决于您选择使用的算法,并且在某些情况下可能是不必要的。