分布式可扩展决策树

数据挖掘 分类 大数据 决策树
2021-09-23 12:31:34

是否有任何好的资源可以解释如何在分布式计算系统上以可扩展的方式实现决策树。这在给定来源中的什么地方进行了解释?

2个回答

Apache Spark 可以做到这一点,使用新的MLLib库。这是一个演示文稿这里有一些基准绑定可用于 python、scala 和 java。

您应该阅读 Google on PLANET 上的论文,这是他们基于 MapReduce 的分布式随机决策森林实现:http://static.googleusercontent.com/media/research.google.com/en//pubs/archive/36296。 pdf

你可能喜欢也可能不喜欢这个架构,但是这里有很多关于扩展的有趣想法。