数据挖掘 - 寻找例如基础设施堆栈/工作流/管道 - 吾爱随笔录

数据挖掘机器学习大数据效率可扩展性分散式

2021-09-17 02:01:45

我试图了解所有“大数据”组件如何在现实世界的用例中一起发挥作用，例如 hadoop、monogodb/nosql、storm、kafka，......我知道这是用于不同的类型，但我想更多地了解他们在应用程序中的交互，例如为应用程序、webapp、在线商店思考机器学习。

我有访问者/会话、交易数据等并将其存储；但是如果我想即时提出建议，我不能在我拥有的一些大型日志数据库上运行缓慢的 map/reduce 作业。我在哪里可以了解有关基础架构方面的更多信息？我想我可以自己使用大多数工具，但是将它们相互插入似乎是一门艺术。

是否有任何公共示例/用例等可用？我知道各个管道在很大程度上取决于用例和用户，但只是示例可能对我非常有用。

4个回答

为了了解可以将机器学习集成到生产应用程序中的各种方式，我认为查看描述其基础架构的公司的开源项目和论文/博客文章很有用。

这些系统的共同主题是模型训练与模型应用的分离。在生产系统中，模型应用需要快速，大约 100 毫秒，但在需要更新拟合模型参数（或等效参数）的频率方面有更大的自由度。

人们使用多种解决方案进行模型训练和部署：

构建模型，然后使用 PMML 导出和部署它
- AirBnB 描述了他们在 R/Python 中的模型训练以及通过 OpenScoring 部署 PMML 模型。
- Pattern是与Cascading相关的项目，可以使用 PMML 并部署预测模型。
在 MapReduce 中构建模型并在自定义系统中访问值
- Conjecture 是 Etsy 的一个开源项目，它允许使用Scalding进行模型训练，这是一个更易于使用的 MapReduce scala 包装器，以及通过 Php 进行部署。
- Kiji 是 WibiData 的一个开源项目，它允许实时模型评分（应用程序）以及通过 Scalding 持久化用户数据和在该数据上训练模型的功能。
使用允许不断更新模型参数的在线系统。
- 谷歌发布了一篇关于他们为处理谷歌新闻中的推荐而实施的在线协同过滤的优秀论文。

关于设置复杂分析管道的最详细和最清晰的解释之一来自Twitch的人们。
它们给出了收集、传输、协调、处理、存储和查询数据的每个架构选择的详细动机。
引人入胜的阅读！在这里和这里找到它。

Airbnb和Etsy最近都发布了有关其工作流程的详细信息。

Practical Data Science with R ( http://www.manning.com/zumel/ ) 的第 1 章对数据科学过程进行了很好的分解，包括团队角色以及它们与特定任务的关系。本书遵循本章中列出的模型，通过引用执行此或那个特定任务的阶段/人员。

其它你可能感兴趣的问题