寻找例如基础设施堆栈/工作流/管道

数据挖掘 机器学习 大数据 效率 可扩展性 分散式
2021-09-17 02:01:45

我试图了解所有“大数据”组件如何在现实世界的用例中一起发挥作用,例如 hadoop、monogodb/nosql、storm、kafka,......我知道这是用于不同的类型,但我想更多地了解他们在应用程序中的交互,例如为应用程序、webapp、在线商店思考机器学习。

我有访问者/会话、交易数据等并将其存储;但是如果我想即时提出建议,我不能在我拥有的一些大型日志数据库上运行缓慢的 map/reduce 作业。我在哪里可以了解有关基础架构方面的更多信息?我想我可以自己使用大多数工具,但是将它们相互插入似乎是一门艺术。

是否有任何公共示例/用例等可用?我知道各个管道在很大程度上取决于用例和用户,但只是示例可能对我非常有用。

4个回答

为了了解可以将机器学习集成到生产应用程序中的各种方式,我认为查看描述其基础架构的公司的开源项目和论文/博客文章很有用。

这些系统的共同主题是模型训练与模型应用的分离。在生产系统中,模型应用需要快速,大约 100 毫秒,但在需要更新拟合模型参数(或等效参数)的频率方面有更大的自由度。

人们使用多种解决方案进行模型训练和部署:

  • 构建模型,然后使用 PMML 导出和部署它

  • 在 MapReduce 中构建模型并在自定义系统中访问值

  • 使用允许不断更新模型参数的在线系统。

关于设置复杂分析管道的最详细和最清晰的解释之一来自Twitch的人们。
它们给出了收集、传输、协调、处理、存储和查询数据的每个架构选择的详细动机。
引人入胜的阅读!在这里这里找到它

AirbnbEtsy最近都发布了有关其工作流程的详细信息。

Practical Data Science with R ( http://www.manning.com/zumel/ ) 的第 1 章对数据科学过程进行了很好的分解,包括团队角色以及它们与特定任务的关系。本书遵循本章中列出的模型,通过引用执行此或那个特定任务的阶段/人员。