有多少人可以同时使用一个 Hadoop 集群?

数据挖掘 数据 apache-hadoop 教育
2022-02-27 09:19:47

我想知道有多少人可以同时使用一个 Hadoop 集群?我问是因为我需要弄清楚单个 5 或 10 节点集群是否足以容纳 12 到 24 名学生的班级。

另外,我想知道是否有人可以推荐高端教育级集群上每个节点的规格是否应该与任何其他生产级集群相同(即64G-128G RAM,24TB硬盘空间, 8 核等)。我相信学生将使用的数据集大小将在最小 20MB 到最大 0.500TB 之间,我想我们最终将致力于解决实际问题和数据集,即使它们不完全被认为是大数据。

2个回答

对于初始学习,您可以非常轻松地针对单个 VM 进行概念验证工作(带有伪集群的 4GB VM 足以在其中执行基本的 mapreduce 示例)。如果您要使用 Spark,如果它们在预算范围内,我会倾向于更高的内存数量。我也会关注更多、成本更低的节点。一组配备 2TB 消费级 SSD 和 32GB RAM 的 Intel i7 NUC(或类似设备)每个节点的成本不到 1000 美元,其中 10-15 个可以轻松处理一个 24 名学生的班级。

瓶颈取决于使用模式而不是用户的直接数量。如果人们正在做高 I/O 工作负载,那么您根本不会有很多人参与。然而,如果您正在执行小型流程或只是将其用作简单的数据湖,您可以在那里托管您正在谈论的那种人。

您是否考虑过使用 AWS?