我想从一个小的预测问题开始机器学习,但我不确定我选择了正确的方法。我想编写一个程序来获取汽车机械故障的数据(制造时间、故障时间、原因和汽车的不同特性)。然后我会给出将要投放市场的新车的数据,我会尝试预测它们什么时候会出现故障。
我正在阅读最好的方法是使用 R 进行生存分析,但由于我对这个算法并不熟悉,我想知道是否还有其他方法。
我想从一个小的预测问题开始机器学习,但我不确定我选择了正确的方法。我想编写一个程序来获取汽车机械故障的数据(制造时间、故障时间、原因和汽车的不同特性)。然后我会给出将要投放市场的新车的数据,我会尝试预测它们什么时候会出现故障。
我正在阅读最好的方法是使用 R 进行生存分析,但由于我对这个算法并不熟悉,我想知道是否还有其他方法。
我认为您应该首先明确指定协变量是什么,目标变量是什么以及您的目标是什么。
因此,如果您将汽车的属性作为协变量,而目标变量是故障时间(汽车在 1 年、2 年...),那么最好的方法确实是生存分析,因为您尝试对故障时间进行建模。
另一方面,如果您的目标变量只是一个失败 - 是或否,那么它就是一个分类问题。为此,决策树或逻辑回归等简单模型非常适合。
不要仅仅因为它的花哨而使用算法,或者仅仅因为它们不是“机器学习”而不喜欢其他方法。
你说你想从机器学习开始,所以继续吧。不要盲目地适应任何黑盒模型,从简单的开始,看看它们是如何工作的。
话虽如此,选择更简单的东西。因为生存分析需要知识或回归以及更多的统计数据。
祝你好运。
我也只是 ML 的初学者(但他不熟悉使用 R 的生存分析),但已经处理了几个 ML 项目。根据我的知识,您可以使用监督学习。
存储数据,最好以 CSV 格式存储(一列关于购买汽车和汽车机械故障之间的持续时间),其余关于汽车的数据/特征。
接下来,您可以通过数据运行神经网络,并使用 NN 库的 predict() 方法根据您的数据预测故障前的持续时间。
然后,您可以从理论上(假设数据之间存在逻辑相关性)查看哪些特征最容易使汽车发生故障。
至于实现您的程序,我将Python与Keras库一起使用,这对于任何程序员来说都足够简单,但还有许多其他出色的 ML 库,尤其是TensorFlow。
请注意,我也只是一个初学者,我的方法可能是错误的,但我祝你在未来的 ML 项目上好运!