我有十几个存储不同数据的数据库,每个数据库的大小都是 100TB。所有数据都存储在 RDS、Aurora 和 Dynamo 等 AWS 服务中。
很多时候,我发现自己需要跨数据库执行“连接”,例如出现在多个数据库中的学生 ID 以及我想要收集的数据。连接通常在数据从数据库流出后完成,因为数据不在同一个数据库中,而这有时需要数小时才能处理数千条记录。
AWS redshift 或 Google BigQuery 等服务能否让您以某种方式从许多数据源“导入”数据,然后您可以执行 SQL 查询来加入它们?
Hadoop 和 Hive 怎么样?我们在哪里从数据库中提取数据并将其作为文件放在 Hadoop 中,然后让 Hive 查询数据?