数据挖掘 - 我可以从另一个火花集群访问数据吗？ - 吾爱随笔录

如果我想在 Spark-cluster-1 上的 hive 上对表进行采样，但我在 Spark-cluster-2 上登录了怎么办？

Connecting to jdbc:hive2://spark.cluster.1:10000/default;principal=hive/_HOST@US.AD.companyname.com;ssl=true

当我使用此调用从 spark.cluster.2 发出调用时，此调用返回错误：“错误：无法使用 JDBC Uri 打开客户端传输：”：

hive -e "select * FROM database.tablename where rand() <= 0.0001 order by rand() limit 10"

这样做有什么限制？即使我没有登录到配置单元表所在的集群，我也应该能够读取表。

这不会使这些数据流动。当前的解决方法是手动将它们的表从一个集群复制到另一个集群。

有一个更好的方法吗？