如何设置用于分类的多元时间序列数据集

数据挖掘 Python 分类 时间序列 数据集
2022-02-15 21:18:40

StackExchange 上的第一篇文章。我对 ML 相当陌生,有大约 1 年的经验,所以请原谅任何无知或滥用术语。

我有一个多元时间序列数据集,我想在其中预测唯一 ObjectID 在接下来的 3 个时间段内结果为 1/0(将其视为转换)的可能性。我有一个表格,它会随时间拍摄 ObjectID 的快照,我想使用当前数据来预测 ObjectID 是否会在接下来的 3 个时间段内转换(1 或 0)。一旦 ObjectID 达到转换,它将保持原样。

有一个转折点:一些 X 变量是静态的,它们不会随时间变化。我称之为这些属性,我的数据集中有 8 个。这些本质上是有问题的 ObjectID 特征。我有 2 个随时间变化的变量,年龄(以月为单位)和一个具有 7 个级别的分类变量,ObjectID 通过这些变量进行。以下是数据的外观:

ObjID   Age  Time      Attr1    Attr2   Att3    CurrCat Conversion
id1234  0   1/1/2019    ABC      XYZ    HIJ        A       0
id1234  1   1/2/2019    ABC      XYZ    HIJ        B       0
id1234  2   1/3/2019    ABC      XYZ    HIJ        A       0
id1234  3   1/4/2019    ABC      XYZ    HIJ        D       0 <-- current time
id6789  0   1/1/2019    CBA      ZYX    JIH        C       0
id6789  1   1/2/2019    CBA      ZYX    JIH        C       0
id6789  2   1/3/2019    CBA      ZYX    JIH        D       1
id6789  3   1/4/2019    CBA      ZYX    JIH        A       1

如何为分类或决策树模型设置此数据集?

我将在 Python 中构建模型,因此任何建议的包也会有所帮助。

1个回答

我对 Keras LSTM 有很好的体验。认为它也应该与时间常数功能一起使用。这是一个有用的教程。https://machinelearningmastery.com/multivariate-time-series-forecasting-lstms-keras/