我目前正在使用 R 中的 MNIST 数据集(http://yann.lecun.com/exdb/mnist/)。训练集大小为 60000x748,即使在构建逻辑回归等简单模型时,它似乎也耗尽了我所有的内存.
我的问题是:你们通常如何处理 R 中的大数据集?
切线:将数据集分成更小的块,在每个块上构建模型,然后对预测值执行加权平均是否可行?
我目前正在使用 R 中的 MNIST 数据集(http://yann.lecun.com/exdb/mnist/)。训练集大小为 60000x748,即使在构建逻辑回归等简单模型时,它似乎也耗尽了我所有的内存.
我的问题是:你们通常如何处理 R 中的大数据集?
切线:将数据集分成更小的块,在每个块上构建模型,然后对预测值执行加权平均是否可行?
我依赖于拥有 64 位操作系统并运行 64 位 R,即便如此我仍然崩溃。
根据您要执行的操作,请查看此CRAN 站点。不幸的是,因为我的大型数据框使用混合方法,biglm对我没有任何好处。我继续阅读ff,它也不适合我的需要,因为它用于在磁盘空间中保存和检索的方法不适用于我正在使用的许多分析方法。和相关的bigmemory包似乎与数据帧不完全兼容,尽管矩阵看起来很容易处理。