“大”是指在 100m 到 10b 行的范围内。
我目前正在使用 Hadoop MapReduce 和 Amazon RedShift。MapReduce 在这里有点令人失望。如果给定查询的数据分布良好,则 Redshift 工作得很好。
我应该在这里查看其他技术吗?如果是这样,权衡是什么?
“大”是指在 100m 到 10b 行的范围内。
我目前正在使用 Hadoop MapReduce 和 Amazon RedShift。MapReduce 在这里有点令人失望。如果给定查询的数据分布良好,则 Redshift 工作得很好。
我应该在这里查看其他技术吗?如果是这样,权衡是什么?
比技术更重要的是您使用的连接类型。例如,如果连接键已排序,您可以使用排序合并连接并使用连接顺序来获得更好的性能。
话虽如此,如果中间结果的大小不会破坏集群内存,则可以在内存解决方案中使用最快的连接。以 Spark SQL 或 Mem-SQL 为例。
如果您愿意为供应商解决方案付费,Teradata旨在以低延迟解决大规模连接问题。
我会说 Teradata 应该是不错的选择。但是,当您进行连接时,您必须仔细考虑选择正确的连接键。