用于处理大型数据集(几 TB)的 Linux 工具

数据挖掘 大数据 数据集 工具
2022-02-15 10:01:57

我来自物理背景,有一个非常具体的工具(ROOT,一个 C++ 工具包)来处理非常大的数据集以实现非常特定的目的。对于较小的数据集(MB 到 GB),我使用 Python、R 中的模块,或者只是带有标准输入/标准输出管道的良好 ole 脚本,通常使用关系数据库进行存储。

我的问题是:Linux 上有哪些工具可用于处理其他领域(如数据科学、金融、网络分析等)的 TB+ 大小的数据集?有没有关于它们的标准参考,比如学习 C的K&R ?

0个回答
没有发现任何回复~