数据挖掘 - 我应该重新标记这些数据还是删除可能泄漏的功能？ - 吾爱随笔录

组合一个 Keras MLP 来预测一个值是否会在接下来的 15 分钟内超过静态百分比阈值。传入的数据是一个滚动百分比，在大多数情况下平滑移动，因为数据每隔几毫秒出现一次，并且在某个固定的分钟数内窗口化。因此，当数据已经高于阈值时，它往往会在那里停留一段时间。

当把数据通过神经网络时，它得到了很高的准确率，但这似乎是因为它正确地预测了当它当前超过阈值时，它也会在下一个点（下一个点）超过阈值x 时间步长。该模型的用处在于它是否可以在超过阈值之前准确预测。

特征：

1) current point is over threshold - 1/0
2) current point is AM - 1/0
3) current day is weekday - 1/0
4) current percentage - 0.0-1.0
5-9) average of percentages in past 1/5/10/20/30 minute - 0.0-1.0

标签：

1 if a point is over threshold at any point in time after now and before now+15 minutes

特征 5-9 旨在捕捉当前百分比的惯性。

从特征重要性来看，当前值似乎被大量使用，其次是其是否超过阈值，其次是按时间顺序滚动的手段。我目前正在更改 NN 架构和 epoch 数以提高 f1 分数。我应该删除特征 1 和 4，还是重做标签，以便在预测能力实际超过阈值之前提高预测能力的准确性？