数据挖掘 - 用于处理大型数据集（几 TB）的 Linux 工具 - 吾爱随笔录

我来自物理背景，有一个非常具体的工具（ROOT，一个 C++ 工具包）来处理非常大的数据集以实现非常特定的目的。对于较小的数据集（MB 到 GB），我使用 Python、R 中的模块，或者只是带有标准输入/标准输出管道的良好 ole 脚本，通常使用关系数据库进行存储。

我的问题是：Linux 上有哪些工具可用于处理其他领域（如数据科学、金融、网络分析等）的 TB+ 大小的数据集？有没有关于它们的标准参考，比如学习 C的K&R ？