我知道传统的统计模型,如 Cox Proportional Hazards 回归和一些 Kaplan-Meier 模型可用于预测事件发生前的天数,例如失败等。即生存分析
问题
- GBM、神经网络等机器学习模型的回归版本如何用于预测事件发生前的天数?
- 我相信仅使用发生前的天数作为目标变量并简单地运行回归模型是行不通的?为什么它不起作用以及如何修复?
- 我们可以将生存分析问题转换为分类,然后获得生存概率吗?如果那么如何创建二进制目标变量?
- 机器学习方法与 Cox Proportional Hazards 回归和 Kaplan-Meier 模型等的优缺点是什么?
想象一下样本输入数据的格式如下
笔记:
- 传感器每隔 10 分钟 ping 一次数据,但有时由于网络问题等原因,数据可能会丢失,如带有 NA 的行所示。
- var1,var2,var3 是预测变量,解释变量。
- failure_flag 告诉机器是否失败。
- 对于每个机器 ID,我们每隔 10 分钟都有最近 6 个月的数据
编辑:
注意:我想每天预测每台机器在接下来的 30 天内发生故障的概率。