数据挖掘 - 如何在云中设置服务器以进行机器学习？ - 吾爱随笔录

数据挖掘机器学习

2021-10-14 04:26:21

随着数据集和参数数量越来越大，由于磁盘大小和计算能力有限，在本地运行验证变得越来越困难。因此，人们可能会使用旧笔记本电脑或云中的服务器。特别是，我有兴趣了解有关第二个选项的更多信息。

对于设置，听起来我需要一个存储系统和一个计算系统。这是 S3 和 EC2 吗？Redshift 和 Amazon ML？来自其他供应商的组合？目前，我作为 Kaggle 的业余参与者询问，但我也很想知道专业人士使用什么。

在机器本身上，有没有办法与 GUI 交互而不是命令行来设置它？在开始之前我是否必须安装 Anaconda 或其他 Python 发行版？是否有特定的文件结构可供使用？需要注意的主要陷阱是什么？

最终，我正在寻找实用的建议来设置所有内容。如果您能够只提供文档链接，那也将非常有帮助。谢谢！

2个回答

如果您正在寻找外部存储，那么我建议您使用Redshift。

Redshift 是一个中央仓库和一个列式数据存储。它允许复杂和庞大的数据聚合和连接；所以对于认真的 Kaggle 参与者来说，这是一个不错的选择。（我个人使用 Redshift 作为 kaggle 的数据科学架构。）

来自其他供应商的组合？

不，Redshift 和 S3 的组合就足够了。数据存储在 S3 中，然后使用 COPY 命令加载到 Redshift。

有没有办法与 GUI 交互而不是命令行来设置它？

是的，Amazon AWS 有一个 CLI 界面。但是，您可以使用 Python 上的boto库来处理这些内容。

在开始之前我是否必须安装 Anaconda 或其他 Python 发行版？

不是强迫症。Anaconda 是数字和科学库的包装器。您可以自行安装它们或安装 Anaconda。

查看PySpark，它允许您在 Python 中处理 BigData。

那里有替代品。使用云计算功能有助于解决许多不同类型的问题，而且我已经使用云计算了几年了。有些时候你需要更多的计算能力，例如，如果你需要更多的内存来处理数据，或者你需要 GPU 来进行神经网络计算。唯一的缺点是其中一些服务的价格。最快的使用方法是注册并阅读教程

另一种选择是在 Amazon 实例上设置 RStudio。

使用 IPython 笔记本与远程实例交互的 python 也可以做到这一点。 https://gist.github.com/iamatypeofwalrus/5183133

如果您了解 Apache Spark，您也可以使用 https://databricks.com/

其它你可能感兴趣的问题