大数据 - 数据仓库解决方案?

数据挖掘 大数据 数据库 红移
2022-01-29 15:36:49

我有十几个存储不同数据的数据库,每个数据库的大小都是 100TB。所有数据都存储在 RDS、Aurora 和 Dynamo 等 AWS 服务中。

很多时候,我发现自己需要跨数据库执行“连接”,例如出现在多个数据库中的学生 ID 以及我想要收集的数据。连接通常在数据从数据库流出后完成,因为数据不在同一个数据库中,而这有时需要数小时才能处理数千条记录。

AWS redshift 或 Google BigQuery 等服务能否让您以某种方式从许多数据源“导入”数据,然后您可以执行 SQL 查询来加入它们?

Hadoop 和 Hive 怎么样?我们在哪里从数据库中提取数据并将其作为文件放在 Hadoop 中,然后让 Hive 查询数据?

1个回答

AWS redshift 或 Google BigQuery 等服务能否让您以某种方式从许多数据源“导入”数据,然后您可以执行 SQL 查询来加入它们?

这取决于您的数据和您正在执行的连接类型。但是,是的,像 Redshift 这样的数据库绝对可以在您的用例中表现得更好,因为它们是基于列的数据库。阅读这篇文章和相关答案,了解列式数据存储如何处理数据。

Hadoop 和 Hive 怎么样?

Hadoop + Hive主要是 Redshift 在云上为您提供的 DIY 托管/云版本。