数据挖掘 - 大数据 - 数据仓库解决方案？ - 吾爱随笔录

我有十几个存储不同数据的数据库，每个数据库的大小都是 100TB。所有数据都存储在 RDS、Aurora 和 Dynamo 等 AWS 服务中。

很多时候，我发现自己需要跨数据库执行“连接”，例如出现在多个数据库中的学生 ID 以及我想要收集的数据。连接通常在数据从数据库流出后完成，因为数据不在同一个数据库中，而这有时需要数小时才能处理数千条记录。

AWS redshift 或 Google BigQuery 等服务能否让您以某种方式从许多数据源“导入”数据，然后您可以执行 SQL 查询来加入它们？

Hadoop 和 Hive 怎么样？我们在哪里从数据库中提取数据并将其作为文件放在 Hadoop 中，然后让 Hive 查询数据？