谁将 R 与多核、SNOW 或 CUDA 包一起用于资源密集型计算?
我是一名生物学家,他模拟了年际气候变化对几种迁徙物种种群动态的影响。我的数据集非常大(空间密集型数据),所以我multicore
在 Amazon EC2 服务器上运行我的 R 代码。如果我的任务特别耗费资源,我会选择一个带有 26 个 CPU 单元、8 个内核和 68G RAM 的 High Memory Quadruple Extra Large 实例。在这种情况下,我通常同时运行 4-6 个脚本,每个脚本都在处理一个相当大的数据集。对于较小的任务,我选择具有 4-6 个内核和大约 20 GB RAM 的服务器。
我启动这些实例(通常是现货实例,因为它们更便宜,但可以在当前费率超过我选择支付的费用时终止),运行脚本几个小时,然后在我的脚本完成后终止实例。至于机器映像(Amazon Machine Image),我安装了别人的 Ubuntu,更新了 R,安装了我的包,并将其作为我的私有 AMI 保存在我的 S3 存储空间中。
我的个人机器是双核 macbook pro,它很难分叉多核调用。如果您有其他问题,请随时发送电子邮件。
既然你问了,我正在使用带有多核后端的foreach包。我用它在一个拥有大量 RAM 的 Nehalem 机器上将一个令人尴尬的并行工作负载拆分到多个内核上。这对于手头的任务非常有效。
我在学院工作,我在机器学习算法的一些重度基准测试中使用多核,主要是在我们基于 Opteron 的 Sun Constellation 和一些较小的集群上;这些也是相当令人尴尬的并行问题,因此多核的主要作用是将计算分散到节点上,而不会增加内存使用量。
我使用降雪和降雪在 HPC 集群上进行课程并行化,并使用 CUDA 进行精细数据并行处理。我在流行病学做疾病传播模型。所以我两个都用。