机器算法验证 - 在 R 中处理大数据集时如何处理 RAM 限制？ - 吾爱随笔录

在 R 中处理大数据集时如何处理 RAM 限制？

机器算法验证 r 物流数据集大数据

2022-04-09 20:31:02

我目前正在使用 R 中的 MNIST 数据集（http://yann.lecun.com/exdb/mnist/）。训练集大小为 60000x748，即使在构建逻辑回归等简单模型时，它似乎也耗尽了我所有的内存.

我的问题是：你们通常如何处理 R 中的大数据集？

切线：将数据集分成更小的块，在每个块上构建模型，然后对预测值执行加权平均是否可行？

1个回答

我依赖于拥有 64 位操作系统并运行 64 位 R，即便如此我仍然崩溃。

根据您要执行的操作，请查看此CRAN 站点。不幸的是，因为我的大型数据框使用混合方法，biglm对我没有任何好处。我继续阅读ff，它也不适合我的需要，因为它用于在磁盘空间中保存和检索的方法不适用于我正在使用的许多分析方法。和相关的bigmemory包似乎与数据帧不完全兼容，尽管矩阵看起来很容易处理。

其它你可能感兴趣的问题

上一篇支持向量机的概率输出下一篇确定经验或最近的练习时间在排名中是否更重要的方法？