在数据挖掘平台推荐方面需要一些帮助

数据挖掘 数据挖掘 软件推荐
2022-02-10 09:07:21

目前我需要一个数据挖掘平台(或解决方案)满足这样的要求:

数据源

我可以从以下位置导入数据:CSV、MySQL、PostgreSQL、HDFS

可选:NoSQL、MongoDB。

界面

我可以通过拖放(如 Weka)组装模型和数据。

算法

我可以使用常见的机器学习算法进行建模:逻辑回归、随机森林、SVM、word2vec 等。

如果它有深度学习支持,那就太棒了。

可选:PMML

定制

我可以实现自己的算法(在一定标准下)。

可选:我可以实现自己的 API(在某些标准下)。

编程语言不受限制。

可视化

简单的可视化是可以的。

执照

商业解决方案是可以接受的,开源解决方案会更好(我可以做一些调整以满足我的要求)。

我研究过两个软件:Weka 和 SPSS Modeler。Weka 不支持 HDFS,而 SPSS Modeler 不支持自定义算法。

1个回答

正如@oW_ 提到的,Orange似乎是一个不错的选择。

数据源

Orange3-spark 提供 Hive/Spark 支持,酷!

界面

有点迟钝,但可以接受。

算法

完整的算法支持(基于 scikit-learn)。我可以自己实现深度学习的东西。

定制

高度支持。可以开发小部件和插件。

可视化

不错。