Apache Storm 中的级联错误

数据挖掘 大数据 apache-hadoop
2021-09-21 12:36:26

通过 Twitter 对 Summingbird 的介绍和资料,提到在 Summingbird 中同时使用 Storm 和 Hadoop 集群的原因之一是通过 Storm 进行处理会导致级联错误。为了避免这种错误的级联和累积,Hadoop集群用于批量处理数据,并在Hadoop处理相同的数据后丢弃Storm结果。

产生这种错误累积的原因是什么?为什么它不在 Hadoop 中?由于我没有与 Storm 合作过,我不知道其中的原因。是因为 Storm 使用一些近似算法来处理数据以便实时处理它们吗?还是其他原因?

1个回答

Twitter 使用 Storm 实时处理数据。实时数据可能会出现问题。系统可能会宕机。数据可能会被无意处理两次。网络连接可能会丢失。在实时系统中会发生很多事情。

他们使用 hadoop 可靠地处理历史数据。我不知道具体细节,但例如,从聚合日志中获取可靠信息可能比附加到流更可靠。

如果他们只是简单地依赖 Storm 来处理所有事情 - 由于提供大规模实时信息的性质,Storm 会遇到问题。如果他们在所有事情上都依赖 hadoop,那么就会有很多延迟。将两者与 Summingbird 结合是合乎逻辑的下一步。