机器算法验证 - 有哪些软件（付费或免费）可用于学习大型数据集？ - 吾爱随笔录

有哪些软件（付费或免费）可用于学习大型数据集？

机器算法验证机器学习大数据

2022-03-22 18:16:21

是否有可用的软件（甚至只是相关论文）可以在 200m+ 样本的数据集上执行多类学习，其中包含 50 多个类和 1000 多个特征？

神经网络的数据集大小有什么限制？决策树集成？支持向量机？

举个例子：微软开发的代码可以在一个 1kilonode 集群上构建决策树，每棵树有 600m 个样本，超过 32 个类和 2000 个特征。训练3棵树需要一天时间。

是否有可以为上述任何学习算法执行此操作的公开程序？

2个回答

您可以尝试使用Weka。它已经实现了大量的分类算法。在您的情况下，您肯定想在给定数据集的情况下试验算法的速度。众所周知，朴素贝叶斯和 (Lib)SVM 算法非常快。还可以尝试使用 LibLINEAR 算法而不是 LibSVM，它有时更适合大型数据集。[注意：LibLINEAR 和 LibSVM 包默认没有安装在 Weka 中，但是 Weka 的开发版本 3.7.6 提供了一个包管理器来轻松安装它们]

您可能还想使用 Weka 的Select attributes选项来查找信息最多的功能并删除不必要的功能。

一般来说; 我会开始只学习一小部分数据集并从那里扩大规模。可能是这样的情况，你的表现不会随着更多的数据而上升（尽管经常听到的机器学习经验法则说“数据越多越好”）。

与 Weka 类似，您也可以尝试SCaVis。您可以使用 Python 语言（或 Java、Groovy、Rubu - 它们都受SCaVis支持）创建大型数据容器。我认为如果您不想创建内存容器，请尝试使用 PFile 对象，它可以逐行扫描您的数据，而无需将所有数据加载到内存中

其它你可能感兴趣的问题

上一篇如何最好地显示预测偏差？下一篇具有条件矩的多元时间序列模型评估