组合一个 Keras MLP 来预测一个值是否会在接下来的 15 分钟内超过静态百分比阈值。传入的数据是一个滚动百分比,在大多数情况下平滑移动,因为数据每隔几毫秒出现一次,并且在某个固定的分钟数内窗口化。因此,当数据已经高于阈值时,它往往会在那里停留一段时间。
当把数据通过神经网络时,它得到了很高的准确率,但这似乎是因为它正确地预测了当它当前超过阈值时,它也会在下一个点(下一个点)超过阈值x 时间步长。该模型的用处在于它是否可以在超过阈值之前准确预测。
特征:
1) current point is over threshold - 1/0
2) current point is AM - 1/0
3) current day is weekday - 1/0
4) current percentage - 0.0-1.0
5-9) average of percentages in past 1/5/10/20/30 minute - 0.0-1.0
标签:
1 if a point is over threshold at any point in time after now and before now+15 minutes
特征 5-9 旨在捕捉当前百分比的惯性。
从特征重要性来看,当前值似乎被大量使用,其次是其是否超过阈值,其次是按时间顺序滚动的手段。我目前正在更改 NN 架构和 epoch 数以提高 f1 分数。我应该删除特征 1 和 4,还是重做标签,以便在预测能力实际超过阈值之前提高预测能力的准确性?