数据挖掘 - 基于多元时间序列的分类/预测 - 吾爱随笔录

因此，我有一个包含许多自变量（X）和结果变量 Y 的时间序列（我想预测，考虑一个 2 类逻辑回归，其中输出为 1 或 0）。请看下面的示例：

Timestamp       X1      X2      X3          X4          Y
1:00            1       0.5     23.5        0           0
1:01            1       0.8     18.7        0           0
1:02            0       0.9     4.5         1           0
….
1:30            1       1.9     5.5         1           1
1:31            0       1.7     4.3         0           1
…
…

现在我想预测或者更确切地说将 Y 分类为 0（稳定）或 1（不稳定）（请注意，当 Y 变为 1 时，它在一定的时间间隔内保持 1，当它为 0 时相同）

所以 Y 将取决于序列变量（请注意，它是一个时间序列，而不是标准回归问题，其中每一行都可以输入算法进行分类，这里的输出取决于一系列输入/行），例如，当 X2 开始增加而 X3 开始减少等等时，Y 可能变为 1（有许多自变量 X1…XN）。

为了解决这个问题，我想的方法是在 Y 变为 1 之前提取 m 小时的数据并对 X 进行一些描述性统计以得出新特征（如 X1 的平均值、X2 的标准差、 X4 等用于提取的数据集）将 X 转换为单行特征向量。这个单行特征向量的结果“Y”是 1，因为我们刚刚在 Y 变为 1 之前提取了数据。所以这样我就可以将时间序列转换为标准的分类/预测问题。同样，我可以参加其他课程，即 Y=0 并遵循相同的过程。

我想到的另一种方法是合并一个序列模型，比如隐马尔可夫模型，其中隐藏状态可能是稳定的（比如 Y=0）和不稳定的（Y=1），然后我会讨论发射和转移概率. 但是考虑到 Y 依赖于许多 X，这个 HMM 将是多变量的。这似乎有点复杂？

任何对上述问题建模的想法都将不胜感激。