谁将 R 与多核、SNOW 或 CUDA 包一起用于资源密集型计算?

机器算法验证 r 数理统计 计算统计 并行计算
2022-02-14 04:34:48

本论坛中的谁使用 ">R 与多核包或CUDA,因此对于需要比工作站 CPU 更多功率的高级计算?您在哪些硬件上计算这些脚本?在家/工作或您有数据中心访问某处?

这些问题的背景如下:我目前正在写我的理学硕士。关于 R 和高性能计算的论文,需要深入了解谁实际使用 R。我读到 R 在 2008 年有 100 万用户,但这或多或少是我能找到的关于这个主题的唯一用户统计数据 - 所以我希望你答案!

真诚的 海因里希

4个回答

我是一名生物学家,他模拟了年际气候变化对几种迁徙物种种群动态的影响。我的数据集非常大(空间密集型数据),所以我multicore在 Amazon EC2 服务器上运行我的 R 代码。如果我的任务特别耗费资源,我会选择一个带有 26 个 CPU 单元、8 个内核和 68G RAM 的 High Memory Quadruple Extra Large 实例。在这种情况下,我通常同时运行 4-6 个脚本,每个脚本都在处理一个相当大的数据集。对于较小的任务,我选择具有 4-6 个内核和大约 20 GB RAM 的服务器。

我启动这些实例(通常是现货实例,因为它们更便宜,但可以在当前费率超过我选择支付的费用时终止),运行脚本几个小时,然后在我的脚本完成后终止实例。至于机器映像(Amazon Machine Image),我安装了别人的 Ubuntu,更新了 R,安装了我的包,并将其作为我的私有 AMI 保存在我的 S3 存储空间中。

我的个人机器是双核 macbook pro,它很难分叉多核调用。如果您有其他问题,请随时发送电子邮件。

既然你问了,我正在使用带有多核后端的foreach包。我用它在一个拥有大量 RAM 的 Nehalem 机器上将一个令人尴尬的并行工作负载拆分到多个内核上。这对于手头的任务非常有效。

我在学院工作,我在机器学习算法的一些重度基准测试中使用多核,主要是在我们基于 Opteron 的 Sun Constellation 和一些较小的集群上;这些也是相当令人尴尬的并行问题,因此多核的主要作用是将计算分散到节点上,而不会增加内存使用量。

我使用降雪和降雪在 HPC 集群上进行课程并行化,并使用 CUDA 进行精细数据并行处理。我在流行病学做疾病传播模型。所以我两个都用。