选择什么样的 RAM 进行数据分析?

数据挖掘 r Python
2022-02-10 21:07:41

我打算升级我的电脑,还想购买一些新的 DDR3 RAM 模块。通过一些研究,我意识到 RAM 有 2 个主要特征(除了容量):频率和延迟。

我也想用我的电脑进行数据分析(比如 Kaggle 比赛)。通常我在 R 中工作,有时在 Python 中工作。

我了解延迟和频率之间存在权衡(有时也反映在价格中)。我的问题是哪一个对数据分析更重要?它如何影响现实世界的表现?在选择具有整体更好和更低参数值的模型之间,我应该期望有多大差异?

更新:我不问一般来说哪种 RAM 更好。我需要知道 R(或 Python)如何进行内存管理的用户的回答。如何在内存中管理不同的 ML 算法,以及首选哪些 RAM 特性来支持它。我也很欣赏这个领域的个人经验。

1个回答

比较具有不同频率和延迟的两个 RAM 并不容易,因为它们都会以不同的方式影响您的性能。

简短的回答是:

  • 如果您有两个容量和频率相同的 RAM,请选择延迟较低的一个。
  • 如果您有两个具有相同容量和延迟的 RAM,请选择频率较高的一个。

来自lifehacker.com

从本质上讲,当涉及到 RAM“速度”时,您需要担心两件事:频率,它处理一次可以将多少数据传输到记忆棒,以及延迟,它响应请求的速度。在当前市场中,随着频率的提高,延迟往往会增加,因此在许多情况下,它们往往会相互平衡。购买速度更快的 RAM 并不重要。

长答案:

不用担心内存。是的,如果你的内存很糟糕,你的性能也会有问题。但是,数据分析中最重要的是代码的性能。我个人经验的一个例子:

我有一个文本数据集,大约 30GB。我需要为一个简单的 TF-IDF 创建一个语料库。蛮力代码花费了大约 15 个小时,而 map-reduce 算法花费了大约 1.5 分钟来处理相同的数据集。

我在 16GB RAM 的 MacBook Pro 上工作。我对性能没有任何问题。但是,如果您拥有庞大的数据集,甚至代码改进和 RAM 升级也无济于事,您可能会重新考虑迁移到 Hadoop 或类似的。