网络分析经典数据集

数据挖掘 数据集 图表
2021-10-09 07:02:21

有几个用于机器学习分类/回归任务的经典数据集。最受欢迎的是:

但是有人知道用于网络分析/图论的类似数据集吗?更具体 - 我正在寻找用于比较/评估/学习的黄金标准数据集:

  1. 中心性措施;
  2. 网络聚类算法。

我不需要大量公开可用的网络/图表,但需要几个实际必须知道的数据集。

编辑:

为“黄金标准数据集”提供确切的特征是相当困难的,但这里有一些想法。我认为,真正的经典数据集应该满足这些标准:

  • 文章和教科书中的多个参考文献;
  • 包含在著名的网络分析软件包中;
  • 足够的存在时间;
  • 在许多图形分析课程中的使用。

关于我感兴趣的领域,我还需要为顶点和/或预先计算的(或预定义的)“权威分数”(即中心性估计)标记的类。问了这个问题后,我继续搜索,这里有一些合适的例子:

  • Zachary's Karate Club:1977年推出,引用超过1.5k次(根据Google Scholar),顶点有属性Faction(可用于聚类)。
  • Erdos Collaboration Network : 不幸的是,我还没有找到这个数据文件形式的网络,但它相当有名,如果有人用数学家的专业数据丰富网络,它也可以用于测试聚类算法。
3个回答

您可以在KONECT中找到您要查找的内容(在我写这篇文章时网站已关闭,但应该很快就会修复!)。它几乎是用于网络分析的最全面的数据收集。但问题是使用哪个更标准

好吧,除了 Zachary 的空手道俱乐部之外,没有明确的答案!

如果您对社区检测算法进行文献综述,您会发现几乎所有闪亮的论文都使用不同的网络。我的建议是通过 Andrea Lancichinetti 和 Santo Fortunato 为基准图所做的工作。他们提出了一些基准图生成算法,例如这个

希望能帮助到你 :)

也许你可以在这里查看 - http://snap.stanford.edu/data/

对于每个数据集,您还将看到使用它们的作品的参考资料

我唯一知道的是图形数据库的基准数据,例如 Neo4j。

您可能会发现与此类似的链接:http: //istc-bigdata.org/index.php/benchmarking-graph-databases/

您可以在其中找到数据来测试网络分析和图论。

此外,您可以使用 Twitter/Facebook 的 API 来收集您自己的数据。这也是一个建议,以防您找不到您要查找的数据。