我们计划使用 REST API 调用从端点摄取数据并将数据存储到 HDFS。REST 调用以定期方式(每天或每小时)完成。
我已经使用 Flume 完成了 Twitter 摄取,但我认为使用 Flume 不适合我当前的用例,因为我没有在 Twitter 中使用像这样的连续数据 Firehose,而是离散的常规时间限制调用。
请我想听听有关设计以及用于此用例的基于 Hadoop 的组件的建议/替代方案(如果比我现在想的更容易)。如果你觉得我可以坚持使用 Flume,那么请给我一个如何做到这一点的想法。