确定诊断数据中最重要的特征

数据挖掘 机器学习 特征选择 逻辑回归 机器学习模型
2022-03-01 12:20:45

我有一个设备诊断数据集。我有两张表:一张将每个设备与故障代码相关联。两个设备可以共享一个故障代码,例如常见的芯片故障。第二个表将设备与故障迹象(例如过热)联系起来。每个标志都有一个严重性分数,设备可以有重叠的标志。例如:

Device_code,Failure_code
X001,8989
X001,8650
X001,8490
X002,8989
X002,8650
X002,3433
....

Device_code | signs | severity
8989, s1234, 1
8989, s2345, 4
8989, s4567, 2
8650, s1234, 4
8650, s9999, 1
...

我怎样才能找到每个最重要signsFailure_code

我考虑过合并表,将每个表转换sign为二进制列,其中 1 和 0 分别表示失败是否具有特征。然后运行逻辑回归来预测failure_code并按系数排序。但是,在这种方法中,我无法使用该severity功能。解决这个问题的好方法是什么?

谢谢!

0个回答
没有发现任何回复~