解决机器学习/模式识别问题的典型步骤:
- 数据分析并将数据拆分为测试集和训练集。
- 选择模型。
- 训练模型,并针对测试集测试模型。
- 如果模型的准确性不可接受,请使用新模型重新开始。
步骤(2)可以使用网格搜索在某种程度上自动化,但是有没有办法使整个过程自动化?
我特别考虑大型数据应用程序(例如在处理零售数据时,或在 Netflix 等网站上进行客户分析时),其中有数百万个类似但不同的机器学习问题实例,每个实例都需要训练和分别验证。
在这种情况下,分析师或数据科学家团队不可能执行上述步骤,必须使用某种自动化模型开发框架。
允许这样做的框架是什么?