我有一个管理设备的系统。当这些设备出现故障时,它们将被维修。想象一下我的数据集如下所示:
ID
Type
# of times serviced
示例数据:
|ID| Type | #serviced |
|1 | iphone | 1 |
|2 | iphone | 0 |
|3 | android | 1 |
|4 | android | 0 |
|5 | blackberry | 0 |
我想要做的是我想预测“在所有尚未维修的设备中,哪些设备可能会维修”?(ie) 识别“有风险”的设备。
问题是我的训练数据将是#serviced > 0。任何#serviced=0 都不会被冻结,并且似乎不是包含在训练中的有效候选人。(即)当它失败时,它将被服务,因此计数会增加。
这是有监督的还是无监督的问题?(监督是因为我有服务和非服务标签,非监督是因为我想将非服务与服务集群并在那里识别有风险的设备)
我应该在培训中包含哪些数据?
笔记:
这个例子显然被简化了。实际上,我有更多描述设备的功能。