我正在尝试根据警报数据预测机器故障。
情况:
每年大约有 4000 次机器故障。这些标记很差(它是手动输入的,并且对于同一故障可以有多个名称)。该数据集按以下方式由时间戳、故障名称和故障描述组成。
timestamp, name, description
01/01/2020 - 08:10, Motor Failure, Motor failed due to overheating
此外,每年大约有 100 万个警报显示可能存在的问题(系统中有 8000 个可能的警报,但激活的 100 万个警报中只有约 1200 个)。警报会在故障点触发,但在很大比例的情况下,有多个相关警报会在手前数周激活,但由于剪切数而无法采取行动。该数据集由时间戳、警报 ID 和警报描述组成,如下所示。
timestamp, alarm id, description
01/01/2020 - 08:10, MFHeatHiHi, Motor temperature critical
请原谅我的无知,因为我是数据科学的新手。我正在尝试找出最好的方法来清理/修改数据,然后在哪些方向上创建预测。如果我以错误的方式进行操作,或者对从哪里开始有错误的想法,请告诉我。
为相同的事件更新 4000 个具有相同名称的故障(我估计其中大约有 600 个离散故障)。或者我将它们都称为“故障”并仅针对一个变量测试警报,并使用警报描述给我可能导致失败的问题。
将警报分解到发生故障的时间窗口(可能为 30 天或更短)。然后使用警报 id - 描述作为列,以出现次数作为值。
例如:
Failure timestamp, MFHeatHiHi - Motor temperature critical, FanHeatHiHi - Fan temperature critical,
01/01/2020 - 08:10, 4, 3,
然后我想用 R 使用随机森林。
这是正确的方法吗,如果我只使一个变量失败,是删除警报的时间分量并转换为警报数量是正确的方法吗?这是否意味着我需要 8000 列可能的警报。
我很确定我有错误的方法,所以非常感谢一些指导,所以我正朝着正确的方向前进。
谢谢你的帮助,