如今,可扩展的机器学习算法似乎很流行。每家公司都在处理大数据。是否有一本教科书讨论了哪些机器学习算法可以使用 Map-Reduce 等并行架构进行扩展,哪些算法不能?或者一些相关的论文?
可以使用 hadoop/map-reduce 扩展哪些机器学习算法
机器算法验证
机器学习
大数据
2022-03-16 06:54:02
4个回答
Mahout in Action 是一本关于 Mahout ( http://manning.com/owen/ )的好书。当然,该网站对所涵盖的算法进行了概述(http://mahout.apache.org/)。
Vowpal Wabbit,一个非常快速的机器学习程序,专注于在线梯度下降学习,可以与 Hadoop 一起使用:http: //arxiv.org/abs/1110.4198 虽然,我从来没有这样用过。如果我理解正确,它实际上只使用 Hadoop 来提高可靠性并将数据提供给 Vowpal Wabbit 进程。它使用类似 MPI 的 AllReduce 来完成大部分通信。
正如 Jimmy Lin 和 Chris Dyer 在他们关于使用 MapReduce 进行数据密集型文本挖掘一书中的第一章所指出的那样,在大数据范围内,不同算法的性能会收敛,从而几乎可以消除性能差异。这意味着给定足够大的数据集,您要使用的算法是计算成本较低的算法。只有在较小的数据规模上,算法之间的性能差异才重要。
话虽如此,他们的书(链接在上面)和Anand Rajaraman、Jure Leskovec 和 Jeffrey D. Ullman的《海量数据集挖掘》可能也是您想要查看的两本书,尤其是当他们直接关注 MapReduce 时用于数据挖掘目的。
如果您可以访问 Hadoop 集群,我会看看 Spark。https://spark.apache.org/