我是使用机器学习的初学者(我完成了 Ng 的课程),我在 python 中使用 scikit-learn。我想找到检测系统异常的最佳方法。
我们有按计划(每隔几分钟/几小时)发生的持续事件,我想检测何时发生异常情况。示例数据:
ID | epoch-time | duration (Sec) | status | is_manual
0400 | 1488801454 | 500 | completed | 1
0401 | 1488805055 | 500 | completed | 1
0402 | 1488812254 | 40000 | failed | 1
6831 | 1488805050 | 200 | failed | 0
.
... (Millions of examples)
.
0014 | 1488805055 | 1200 | completed | 0
例如,事件 ID 0400 每小时发生一次。我想告诉它什么时候不运行。
我打算做的是向算法提供过去 10 分钟内的所有事件。
主要问题:如何处理ID列?我应该采取的最佳方法是什么?