数据挖掘 - 将定期 REST API 调用摄取到 Hadoop - 吾爱随笔录

我们计划使用 REST API 调用从端点摄取数据并将数据存储到 HDFS。REST 调用以定期方式（每天或每小时）完成。

我已经使用 Flume 完成了 Twitter 摄取，但我认为使用 Flume 不适合我当前的用例，因为我没有在 Twitter 中使用像这样的连续数据 Firehose，而是离散的常规时间限制调用。

请我想听听有关设计以及用于此用例的基于 Hadoop 的组件的建议/替代方案（如果比我现在想的更容易）。如果你觉得我可以坚持使用 Flume，那么请给我一个如何做到这一点的想法。