在我出去花钱建立一个带有一些硬件的集群之前,我正在努力设置一组虚拟机来试验 Spark。快速说明:我是一名具有应用机器学习背景的学者,并且在数据科学领域工作了一些。我使用计算工具,很少需要设置它们。
我已经创建了 3 个虚拟机(1 个主,2 个从)并成功安装了 Spark。一切似乎都在正常工作。我的问题在于创建一个 Jupyter 服务器,该服务器可以从不在集群上的机器上运行的浏览器连接到该服务器。
我已经成功安装了Jupyter 笔记本......并且它运行了。我添加了一个使用 Spark连接到远程服务器的新 IPython 配置文件。
现在的问题
命令
$ ipython --profile=pyspark
运行良好,它连接到火花集群。然而,
$ ipython notebook --profile=pyspark
[<stuff is here>] Unrecognized alias: "profile=pyspark", it will probably have no effect.
默认为default
配置文件而不是pyspark
配置文件。
我的笔记本配置pyspark
有:
c = get_config()
c.NotebookApp.ip = '*'
c.NotebookApp.open_browser = False
c.NotebookApp.port = 8880
c.NotebookApp.server_extensions.append('ipyparallel.nbextension')
c.NotebookApp.password = u'some password is here'