我正在构建磁盘故障的预测模型(发生磁盘故障所需的时间以及哪些参数可能会强烈影响磁盘故障)。我有点困惑-
- 我应该执行哪些数据预处理步骤。数据集高度不平衡(500 次失败和约 40000 次非失败)
- 由于数据高度不平衡,我应该考虑哪种类型的机器学习模型?
- 几天前,我读到了生存分析,现在我很困惑,问题是生存分析还是机器学习?
我目前正在使用 BackBlaze 提供的数据集(https://www.backblaze.com/b2/hard-drive-test-data.html)。
如果我能得到一些方向,那就太好了:)