将定期 REST API 调用摄取到 Hadoop

数据挖掘 大数据 apache-hadoop json
2022-02-26 09:01:21

我们计划使用 REST API 调用从端点摄取数据并将数据存储到 HDFS。REST 调用以定期方式(每天或每小时)完成。

我已经使用 Flume 完成了 Twitter 摄取,但我认为使用 Flume 不适合我当前的用例,因为我没有在 Twitter 中使用像这样的连续数据 Firehose,而是离散的常规时间限制调用。

请我想听听有关设计以及用于此用例的基于 Hadoop 的组件的建议/替代方案(如果比我现在想的更容易)。如果你觉得我可以坚持使用 Flume,那么请给我一个如何做到这一点的想法。

1个回答

您可以使用 Kafka 将数据摄取到 HDFS 或任何其他云存储(如 S3 或 Google 存储)中。您可以使用 Gobblin 安排您的 kafka 消费者写入 HDFS。

Kafka Producers => Kafka Consumer => Gobblin (Monthly/weekly/Daily/hourly/minutes) => HDFS

希望这对你有用