数据挖掘 - 有哪些工具可以加快机器学习算法的运行时间？ - 吾爱随笔录

数据挖掘机器学习深度学习阿帕奇火花

2022-02-03 00:03:14

我知道 Spark 是最快的数据处理工具，但不确定它是否有助于加快 ML 算法的运行时间。例如，当我在 RStudio 的机器上运行时，我要构建的 ML 模型大约需要 24 小时。我正在考虑另一种工具来减少这种昂贵的时间成本。

我主要谈论的是像 spark 这样的分布式计算工具，而不管算法的类型和我的数据的大小。

任何帮助表示赞赏！

1个回答

这一切都取决于您正在运行的模型和您选择的样本大小。

样本大小是显而易见的，所以我不会深入讨论（或者至少对于 R 处理数据的方式对你来说应该是显而易见的）。但是选择的模型可能会产生影响。例如，神经网络是计算中罕见的问题之一，您实际上可以投入更多硬件来改进。与梯度提升或类似的东西相比，这将是一段不同的体验。

其它你可能感兴趣的问题