有哪些软件(付费或免费)可用于学习大型数据集?

机器算法验证 机器学习 大数据
2022-03-22 18:16:21

是否有可用的软件(甚至只是相关论文)可以在 200m+ 样本的数据集上执行多类学习,其中包含 50 多个类和 1000 多个特征?

神经网络的数据集大小有什么限制?决策树集成?支持向量机?

举个例子:微软开发的代码可以在一个 1kilonode 集群上构建决策树,每棵树有 600m 个样本,超过 32 个类和 2000 个特征。训练3棵树需要一天时间。

是否有可以为上述任何学习算法执行此操作的公开程序?

2个回答

您可以尝试使用Weka它已经实现了大量的分类算法。在您的情况下,您肯定想在给定数据集的情况下试验算法的速度。众所周知,朴素贝叶斯和 (Lib)SVM 算法非常快。还可以尝试使用 LibLINEAR 算法而不是 LibSVM,它有时适合大型数据集。[注意:LibLINEAR 和 LibSVM 包默认没有安装在 Weka 中,但是 Weka 的开发版本 3.7.6 提供了一个包管理器来轻松安装它们]

您可能还想使用 Weka 的Select attributes选项来查找信息最多的功能并删除不必要的功能。

一般来说; 我会开始只学习一小部分数据集并从那里扩大规模。可能是这样的情况,你的表现不会随着更多的数据而上升(尽管经常听到的机器学习经验法则说“数据越多越好”)。

与 Weka 类似,您也可以尝试SCaVis您可以使用 Python 语言(或 Java、Groovy、Rubu - 它们都受SCaVis支持)创建大型数据容器。我认为如果您不想创建内存容器,请尝试使用 PFile 对象,它可以逐行扫描您的数据,而无需将所有数据加载到内存中