我知道 Spark 是最快的数据处理工具,但不确定它是否有助于加快 ML 算法的运行时间。例如,当我在 RStudio 的机器上运行时,我要构建的 ML 模型大约需要 24 小时。我正在考虑另一种工具来减少这种昂贵的时间成本。
我主要谈论的是像 spark 这样的分布式计算工具,而不管算法的类型和我的数据的大小。
任何帮助表示赞赏!
我知道 Spark 是最快的数据处理工具,但不确定它是否有助于加快 ML 算法的运行时间。例如,当我在 RStudio 的机器上运行时,我要构建的 ML 模型大约需要 24 小时。我正在考虑另一种工具来减少这种昂贵的时间成本。
我主要谈论的是像 spark 这样的分布式计算工具,而不管算法的类型和我的数据的大小。
任何帮助表示赞赏!
这一切都取决于您正在运行的模型和您选择的样本大小。
样本大小是显而易见的,所以我不会深入讨论(或者至少对于 R 处理数据的方式对你来说应该是显而易见的)。但是选择的模型可能会产生影响。例如,神经网络是计算中罕见的问题之一,您实际上可以投入更多硬件来改进。与梯度提升或类似的东西相比,这将是一段不同的体验。