用于处理大型数据集的统计和数据挖掘软件工具

机器算法验证 大数据 软件 数据挖掘
2022-01-24 08:54:39

目前我必须分析大约 20M 条记录并建立预测模型。到目前为止,我已经尝试过 Statistica、SPSS、RapidMiner 和 R。其中 Statistica 似乎最适合处理数据挖掘,RapidMiner 用户界面也非常方便,但似乎 Statistica、RapidMiner 和 SPSS 仅适用于较小的数据集.

谁能推荐一个用于大型数据集的好工具?

谢谢!

4个回答

我会第二次@suncoolsu 评论:您的数据集的维数并不是让您转向特定软件的唯一标准。例如,如果您只是计划进行无监督聚类或使用 PCA,则有几种专用工具可以处理大型数据集,这在基因组研究中很常见。

现在,R(64 位)可以很好地处理大数据,您仍然可以选择使用磁盘存储而不是 RAM 访问,但请参阅 CRAN Task View High-Performance and Parallel Computing with R标准 GLM 可以轻松容纳 20,000 个 obs。(但另见speedglm)在合理的时间内,如下所示:

> require(MASS)
> n <- 20000
> X <- mvrnorm(n, mu=c(0,0), Sigma=matrix(c(1,.8,.8,1), 2, 2))
> df <- cbind.data.frame(X, grp=gl(4, n/4), y=sample(c(0,1), n, rep=TRUE))
> system.time(glm(y ~ ., data=df))
   user  system  elapsed
  0.361   0.018    0.379

为了给出更具体的说明,我使用 R 来处理和分析大型遗传数据(800 个个体 x 800k SNP,其中主要统计模型是具有多个协变量的分层 GLM(2 分钟);这得益于高效的 R 和snpMatrix包中提供的 C 代码(相比之下,使用专用 C++ 软件 ( plink )完成同类模型大约需要 8 分钟。我还参与了一项临床研究(12k 患者 x 50 个感兴趣的变量),R 适合我的需要最后,据我所知,lme4软件包是唯一允许使用不平衡和大型数据集拟合混合效应模型的软件(如大规模教育评估中的情况)。

Stata/SE 是另一个可以处理大数据集的软件。SAS 和 SPSS 是基于文件的软件,因此它们将处理大量数据。数据挖掘工具:哪个最适合 CRM中提供了对数据挖掘软件的比较评论对于可视化,也有很多选择;也许一个好的开始是大型数据集的图形:可视化一百万( P Murrell 在 JSS 中评论)以及该站点上的所有相关线程。

Apache Mahout上的大多数算法的规模都超过了 2000 万条记录,即使是高维数据也是如此。如果你只需要建立一个预测模型,有一些特定的工具,比如 Vowpal Wabbit (http://hunch.net/~vw/),可以在单台机器上轻松扩展到数十亿条记录。

RHIPE包(R-Hadoop 集成)。它可以使在 R 中分析大量数据变得非常容易(有例外)。

不知道你心目中的模型是什么,很难给出一个好的答案。

对于线性回归,我已经成功地使用了R 中的biglm包。