计算火花中图的介数中心性的可扩展方法

数据挖掘 机器学习 阿帕奇火花 图表 社会网络分析 网络x
2022-02-27 18:26:41

我有一个用例来计算节点的中介中心性。我已经尝试过使用 spark-betweenness 的 graphx,但这是一项非常长期的工作。有没有人成功计算过具有大约 1000 万个顶点和 1 亿条边的大型网络的中介中心性?

1个回答

抱歉,我认为您无法计算这种大小的图中节点的确切其中是节点数,是链接数。O(nm)nm

好消息是您可以近似它,并且可以从并行计算中受益。实际上,计算中介中心性依赖于计算从任何节点到任何其他节点的最短路径的数量。您可以(随机)选择一些节点并计算从每个节点到所有其他节点的最短路径数,并使用获得的数字来近似介数。您选择的节点越多,近似值就越好,但即使样本集很小,它在经验上也相当不错。