我目前正在开展一个我们正在构建数据管道的项目。我们有火花设置并生成了模型。遗憾的是,在 Spark 中加载模型并查询它对我们来说不够快。导出模型并将其加载到本地服务器上的内存中最直接的方法是什么?我研究了 PMML 和一些库,这似乎是一种方法。
在 Spark 之外加载和查询 Spark 机器学习模型
数据挖掘
阿帕奇火花
2022-03-11 14:26:00
1个回答
如果 PMML 支持您要表达的模型,它可能是最好的选择。Spark 部分支持导出为 PMML。查看 JPMML + OpenScoring 以对嵌入式实例中的 PMML 进行评分。
这个领域有很多工具可以实现类似的东西,但它们通常与自己的格式或模型管理系统交织在一起。