我正在准备几个自学项目来探索机器学习技术。
第一个项目有 10,000 个时间序列,每天有 24 个浮点数据点,持续 10 年(8.76 亿点)。我将为数据创建一堆日历和天气特征,然后尝试使用各种机器学习技术进行预测。
第二是大约 1300 万行文本数据(每行几个段落)用于分类。(目前在 solr 数据库中)
我的计算设备是 6 核、32g 内存、gforce GPU。我打算安装 Ubuntu 14.2。
我希望使用 python 进行文件处理,使用 scilearn、pylearn2 和 word2vec 进行一般探索和训练。R 用于体验该语言。
显然,数据集 1 需要将天气和日历数据加入日期/时间以及跨时间和位置的聚合。我知道如何将它全部塞入 MySQL 数据库并在那里进行聚合和连接,但我一直在阅读有关 spark 的信息并想知道。
……
如果我花时间使用 virtual box/hadoop/spark 模拟集群(为了我的学习经验,而不是性能),我可以/应该在那里进行聚合并将结果写入分布式数据存储吗?
由于深度学习不能在 Spark 上运行,这是否意味着我需要将聚合数据复制回本地文件系统才能使用其中的一些技术?
对于数据集 2,我想运行 kaggle 教程https://www.kaggle.com/c/word2vec-nlp-tutorial/details/part-2-word-vectors中的 word2vec 算法。在那个例子中,这是一种深度学习方法,所以我应该把数据留在 solr.. 对吗?
一般来说,我正在寻找合适的应用程序并深入了解从应用程序到应用程序的数据流,以帮助我开始尝试各种 ML 技术。
谢谢你帮助我