如何在云中设置服务器以进行机器学习?

数据挖掘 机器学习
2021-10-14 04:26:21

随着数据集和参数数量越来越大,由于磁盘大小和计算能力有限,在本地运行验证变得越来越困难。因此,人们可能会使用旧笔记本电脑或云中的服务器。特别是,我有兴趣了解有关第二个选项的更多信息。

对于设置,听起来我需要一个存储系统和一个计算系统。这是 S3 和 EC2 吗?Redshift 和 Amazon ML?来自其他供应商的组合?目前,我作为 Kaggle 的业余参与者询问,但我也很想知道专业人士使用什么。

在机器本身上,有没有办法与 GUI 交互而不是命令行来设置它?在开始之前我是否必须安装 Anaconda 或其他 Python 发行版?是否有特定的文件结构可供使用?需要注意的主要陷阱是什么?

最终,我正在寻找实用的建议来设置所有内容。如果您能够只提供文档链接,那也将非常有帮助。谢谢!

2个回答

如果您正在寻找外部存储,那么我建议您使用Redshift

Redshift 是一个中央仓库和一个列式数据存储。它允许复杂和庞大的数据聚合和连接;所以对于认真的 Kaggle 参与者来说,这是一个不错的选择。(我个人使用 Redshift 作为 kaggle 的数据科学架构。)

来自其他供应商的组合?

不,Redshift 和 S3 的组合就足够了。数据存储在 S3 中,然后使用 COPY 命令加载到 Redshift。

有没有办法与 GUI 交互而不是命令行来设置它?

是的,Amazon AWS 有一个 CLI 界面。但是,您可以使用 Python 上的boto库来处理这些内容。

在开始之前我是否必须安装 Anaconda 或其他 Python 发行版?

不是强迫症。Anaconda 是数字和科学库的包装器。您可以自行安装它们或安装 Anaconda。

查看PySpark,它允许您在 Python 中处理 BigData。

那里有替代品。使用云计算功能有助于解决许多不同类型的问题,而且我已经使用云计算了几年了。有些时候你需要更多的计算能力,例如,如果你需要更多的内存来处理数据,或者你需要 GPU 来进行神经网络计算。唯一的缺点是其中一些服务的价格。最快的使用方法是注册并阅读教程

亚马逊机器学习

https://docs.aws.amazon.com/machine-learning/latest/dg/tutorial.html

Azure 机器学习

https://azure.microsoft.com/en-us/services/machine-learning/

亚马逊实例上的 RStudio

另一种选择是在 Amazon 实例上设置 RStudio。

http://www.louisaslett.com/RStudio_AMI/
http://www.louisaslett.com/RStudio_AMI/video_guide.html
本教程将教您如何连接到运行 R 的 Amazon 实例并在浏览器上显示 GUI。

亚马逊 AWS 上的 iPython HTML Notebook

使用 IPython 笔记本与远程实例交互的 python 也可以做到这一点。 https://gist.github.com/iamatypeofwalrus/5183133

云上的火花

如果您了解 Apache Spark,您也可以使用 https://databricks.com/

高级主题:使用 Python 和 nolearn 在 Amazon EC2 GPU 上进行深度学习

设置一个 GPU Amazon 实例来运行深度学习算法 http://www.pyimagesearch.com/2014/10/13/deep-learning-amazon-ec2-gpu-python-nolearn/