数据挖掘 - Apache Storm 中的级联错误 - 吾爱随笔录

Apache Storm 中的级联错误

数据挖掘大数据 apache-hadoop

2021-09-21 12:36:26

通过 Twitter 对 Summingbird 的介绍和资料，提到在 Summingbird 中同时使用 Storm 和 Hadoop 集群的原因之一是通过 Storm 进行处理会导致级联错误。为了避免这种错误的级联和累积，Hadoop集群用于批量处理数据，并在Hadoop处理相同的数据后丢弃Storm结果。

产生这种错误累积的原因是什么？为什么它不在 Hadoop 中？由于我没有与 Storm 合作过，我不知道其中的原因。是因为 Storm 使用一些近似算法来处理数据以便实时处理它们吗？还是其他原因？

1个回答

Twitter 使用 Storm 实时处理数据。实时数据可能会出现问题。系统可能会宕机。数据可能会被无意处理两次。网络连接可能会丢失。在实时系统中会发生很多事情。

他们使用 hadoop 可靠地处理历史数据。我不知道具体细节，但例如，从聚合日志中获取可靠信息可能比附加到流更可靠。

如果他们只是简单地依赖 Storm 来处理所有事情 - 由于提供大规模实时信息的性质，Storm 会遇到问题。如果他们在所有事情上都依赖 hadoop，那么就会有很多延迟。将两者与 Summingbird 结合是合乎逻辑的下一步。

其它你可能感兴趣的问题

上一篇哪篇 NIPS 2014 论文最重要，为什么？下一篇我们如何从图像中提取字段？