异步算法使用什么框架?

数据挖掘 算法
2022-03-11 11:28:39

我有一个非常大的数据集(谁没有?)的问题,它存储在块中,因此块之间的差异很小(即,块具有代表性)。我想玩弄算法以异步方式进行一些分类,但我想自己编写代码。

示例代码看起来像

start a master
distribute 10 chunks on 10 slaves
while some criterion is not met 
 for each s in slave:
  classify the data inexactly using some kind of iterative algorithm and return to master
 master waits for any 2 slaves to report the classifier, averages the classifier and sends it back for the slaves to continue 

我使用什么框架?Hadoop,Spark,其他?

如果我在纯 C 中执行此操作,我将使用 pthread 并对线程、锁和互斥锁进行非常精细的控制。在这种分布式数据科学环境中是否有任何类似的框架?

1个回答

Spark 是最成熟的分布式计算框架之一。Spark 有 MLlib,一个用于机器学习的库,其中包含许多分类算法