是否有可用的软件(甚至只是相关论文)可以在 200m+ 样本的数据集上执行多类学习,其中包含 50 多个类和 1000 多个特征?
神经网络的数据集大小有什么限制?决策树集成?支持向量机?
举个例子:微软开发的代码可以在一个 1kilonode 集群上构建决策树,每棵树有 600m 个样本,超过 32 个类和 2000 个特征。训练3棵树需要一天时间。
是否有可以为上述任何学习算法执行此操作的公开程序?
是否有可用的软件(甚至只是相关论文)可以在 200m+ 样本的数据集上执行多类学习,其中包含 50 多个类和 1000 多个特征?
神经网络的数据集大小有什么限制?决策树集成?支持向量机?
举个例子:微软开发的代码可以在一个 1kilonode 集群上构建决策树,每棵树有 600m 个样本,超过 32 个类和 2000 个特征。训练3棵树需要一天时间。
是否有可以为上述任何学习算法执行此操作的公开程序?
您可以尝试使用Weka。它已经实现了大量的分类算法。在您的情况下,您肯定想在给定数据集的情况下试验算法的速度。众所周知,朴素贝叶斯和 (Lib)SVM 算法非常快。还可以尝试使用 LibLINEAR 算法而不是 LibSVM,它有时更适合大型数据集。[注意:LibLINEAR 和 LibSVM 包默认没有安装在 Weka 中,但是 Weka 的开发版本 3.7.6 提供了一个包管理器来轻松安装它们]
您可能还想使用 Weka 的Select attributes选项来查找信息最多的功能并删除不必要的功能。
一般来说; 我会开始只学习一小部分数据集并从那里扩大规模。可能是这样的情况,你的表现不会随着更多的数据而上升(尽管经常听到的机器学习经验法则说“数据越多越好”)。