是否有任何可用的框架允许自动化的大规模监督机器学习?

数据挖掘 机器学习 训练 自动化
2022-02-10 07:43:52

解决机器学习/模式识别问题的典型步骤:

  1. 数据分析并将数据拆分为测试集和训练集。
  2. 选择模型。
  3. 训练模型,并针对测试集测试模型。
  4. 如果模型的准确性不可接受,请使用新模型重新开始。

步骤(2)可以使用网格搜索在某种程度上自动化,但是有没有办法使整个过程自动化?

我特别考虑大型数据应用程序(例如在处理零售数据时,或在 Netflix 等网站上进行客户分析时),其中有数百万个类似但不同的机器学习问题实例,每个实例都需要训练和分别验证。

在这种情况下,分析师或数据科学家团队不可能执行上述步骤,必须使用某种自动化模型开发框架。

允许这样做的框架是什么?

3个回答

我认为,Rapidminer 可以用于此。但是,免费版只能加载 10,000 行数据。

有几个工具已经可以做到这一点。我熟悉的有:

  1. IBM 沃森分析
  2. 数据机器人

这两个框架都将处理您正在寻找的内容。当然,他们不是免费的,但他们会做你想要的工作。

我绝对建议您查看EthicalML 发布的工具/框架存储库- 它列出了用于产品化/扩展 ML 管道的大量工具,按类别细分,每个工具都有几句话描述它们的作用。

我想模型和数据版本控制和一些商业平台部分将与您正在寻找的内容最密切相关(后者包括 I_Play_With_Data 答案中的两个选项)。