我有一个设备诊断数据集。我有两张表:一张将每个设备与故障代码相关联。两个设备可以共享一个故障代码,例如常见的芯片故障。第二个表将设备与故障迹象(例如过热)联系起来。每个标志都有一个严重性分数,设备可以有重叠的标志。例如:
Device_code,Failure_code
X001,8989
X001,8650
X001,8490
X002,8989
X002,8650
X002,3433
....
Device_code | signs | severity
8989, s1234, 1
8989, s2345, 4
8989, s4567, 2
8650, s1234, 4
8650, s9999, 1
...
我怎样才能找到每个最重要signs的Failure_code?
我考虑过合并表,将每个表转换sign为二进制列,其中 1 和 0 分别表示失败是否具有特征。然后运行逻辑回归来预测failure_code并按系数排序。但是,在这种方法中,我无法使用该severity功能。解决这个问题的好方法是什么?
谢谢!