有哪些工具可以加快机器学习算法的运行时间?

数据挖掘 机器学习 深度学习 阿帕奇火花
2022-02-03 00:03:14

我知道 Spark 是最快的数据处理工具,但不确定它是否有助于加快 ML 算法的运行时间。例如,当我在 RStudio 的机器上运行时,我要构建的 ML 模型大约需要 24 小时。我正在考虑另一种工具来减少这种昂贵的时间成本。

我主要谈论的是像 spark 这样的分布式计算工具,而不管算法的类型和我的数据的大小。

任何帮助表示赞赏!

1个回答

这一切都取决于您正在运行的模型和您选择的样本大小。

样本大小是显而易见的,所以我不会深入讨论(或者至少对于 R 处理数据的方式对你来说应该是显而易见的)。但是选择的模型可能会产生影响。例如,神经网络是计算中罕见的问题之一,您实际上可以投入更多硬件来改进。与梯度提升或类似的东西相比,这将是一段不同的体验。