在 R 中处理大型数据集——教程、最佳实践等

机器算法验证 r 大数据
2022-03-30 04:00:30

我是一个 R 菜鸟,需要对 R 中的大型数据集进行各种分析。所以在环顾这个网站和其他地方时,在我看来,这里涉及到很多深奥和鲜为人知的问题——比如什么时候使用哪个包,什么转换(不)应用于数据等。

我只是想知道是否有一本书/教程/指南可以揭开这一切的神秘面纱并以系统的方式呈现信息?我更喜欢这样做,而不是环顾四周,并从网上收集不同来源的信息。

提前致谢。

1个回答

这是我在 R 的大型数据集这一主题上发表的几篇博客文章。有几个包,如 ff 和 bigmemory,它们使用文件交换和内存分配。其他几个包利用了与数据库的连接,例如 sqldf、RMySQL 和 RSQLite。

处理大数据的 R 参考

使用 ODBC 的 R 中的大数据逻辑回归