我想知道其他开发人员在他们的 python spark 作业中使用的最佳实践是什么。我正在构建一个开发环境,我希望在 PyCharm 中编写代码,SparkContext 指向一个独立的集群,并能够从 PyCharm 或至少从命令行运行我的代码到集群上。我正在使用 Windows 8。
有这样设置的成功案例吗?推荐的设置/做法是什么?
我想知道其他开发人员在他们的 python spark 作业中使用的最佳实践是什么。我正在构建一个开发环境,我希望在 PyCharm 中编写代码,SparkContext 指向一个独立的集群,并能够从 PyCharm 或至少从命令行运行我的代码到集群上。我正在使用 Windows 8。
有这样设置的成功案例吗?推荐的设置/做法是什么?
在我看来,我建议使用以下方法为大数据上下文开发 Spark 作业:
注意:在基于 Hadoop 的集群上,我建议以 HDFS ORC 格式存储您的数据。然后,您可以使用 Hive 顺利构建它,并使用 Spark 轻松读取或写入这些表。
注意:关于 SSH 客户端,我建议您使用 mobaXterm(基于 ssh 的 windows 客户端)轻松访问集群并拖放您的代码。要获取本地模式的一些数据子集,您可以使用“Toad for Hadoop”客户端,它使您可以直接在配置单元表上运行类似 SQL 的查询并以 CSV 或 Excel 格式提取数据。
注意:Spark Standalone 模式不适合更多的机器。对于大数据集,首选 yarn 或 mesos 集群方法。