我来自物理背景,有一个非常具体的工具(ROOT,一个 C++ 工具包)来处理非常大的数据集以实现非常特定的目的。对于较小的数据集(MB 到 GB),我使用 Python、R 中的模块,或者只是带有标准输入/标准输出管道的良好 ole 脚本,通常使用关系数据库进行存储。
我的问题是:Linux 上有哪些工具可用于处理其他领域(如数据科学、金融、网络分析等)的 TB+ 大小的数据集?有没有关于它们的标准参考,比如学习 C的K&R ?
我来自物理背景,有一个非常具体的工具(ROOT,一个 C++ 工具包)来处理非常大的数据集以实现非常特定的目的。对于较小的数据集(MB 到 GB),我使用 Python、R 中的模块,或者只是带有标准输入/标准输出管道的良好 ole 脚本,通常使用关系数据库进行存储。
我的问题是:Linux 上有哪些工具可用于处理其他领域(如数据科学、金融、网络分析等)的 TB+ 大小的数据集?有没有关于它们的标准参考,比如学习 C的K&R ?