当现实世界网络/图中的所有边在统计上都可能偶然发生时,这意味着什么?

机器算法验证 可能性 统计学意义 数据可视化 图论 网络
2022-03-19 22:12:07

我一直在使用本文中概述的骨干网络提取方法:http ://www.pnas.org/content/106/16/6483.abstract

基本上,作者提出了一种基于统计的方法,该方法为图中的每条边产生一个概率,即该边可能是偶然发生的。我使用典型的统计显着性截止值 0.05。

我一直在将这种方法应用于几个现实世界的网络,有趣的是,一些网络最终没有那么重要的边缘。我试图了解这对网络意味着什么。唯一一次我将该方法应用于网络并且没有明显的边缘出现是当我将该方法应用于我生成的随机网络时,这正是我们所期望的。

作为现实世界网络的示例,您可能已经看到最近在《经济学人》上进行的网络可视化显示了过去 25 年美国参议院的两极分化:http: //www.economist.com/news/united-states/21591190 -美国-变形虫我将骨干网络提取方法应用于这些网络,并且没有出现如此重要的边缘。尽管原始边缘显然显示出优先附着和聚类,但这只是偶然吗?参议院投票网络本质上是随机的吗?

2个回答

主干方法背后的零假设是

[The] 归一化权重对应于某个 k 度节点的连接,是由均匀分布的随机分配产生的。

如果没有任何“重要”边,则原假设适用于整个图,即边权重来自节点发送和接收关系的倾向。

根据您正在分析的关系,主干方法可能不合适。该方法最适用于概念上是单模加权网络的网络。双模网络可以投影为加权单模网络,但这样做通常没有意义。

借鉴您在《经济学人》中的示例,将参议院投票分析为由共享票数加权的单一模式网络是没有意义的。参议院投票是一种签署的、两种模式的关系。参议员 (i) 与一项立法 (j) 有关系,他们要么投弃权票 (0),要么投票赞成 (+1) 或反对 (-1) 立法。将网络转换为加权单模协议网络,然后对其进行主干分析将严重减少数据。有些立法在政治上更具分裂性,有些立法比其他立法拥有更多的选票——骨干方法无法捕捉这些机制。

您可能需要考虑条件统一图 (CUG) 测试而不是主干方法。这些测试背后的想法是确定某些图形级别的属性(例如,聚类、平均路径长度、中心化、同质性)是否来自偶然性。过程如下:

  1. 从观察到的图中测量f
  2. 生成控制观察图的某些属性(例如,大小、边数、度分布等)的随机图
  3. 从随机图中测量f
  4. 多次重复步骤 2 和 3(例如,1000 次)以产生零分布
  5. 将观察到的测量值与零分布进行比较

对于双模网络,通过排列观察到的图来创建随机图是有意义的(R 中的 tnet 和 statnet 都有用于排列双模网络的例程)。如果测量f需要单模网络,则应先对双模网络进行随机化处理,然后再将其投影为单模网络。

在您引用的文章中,作者认为,在一个复杂的网络中,“[the] 节点代表 [modeled] 系统的元素,加权边识别交互的存在及其相对强度”(我强调) .

在您研究的网络中,如果我对《经济学人》文章的理解正确,那么如果两位参议员投票至少 100 次,他们之间就有联系。因此,这些链接不是对交互进行建模,而是对相似性(参议员投票行为之间)进行建模。根据我的经验,相似性网络没有表现出与交互网络相同的度分布,从某种意义上说,它没有那么异构。此外,提取网络时使用的阈值参数(这里:100)有时对度分布有很大的影响。

此外,我在《经济学人》文章中找不到任何权重的提及。然而,在 Ángeles Serrano等人的工作中描述的方法中,权重的存在似乎是一个重要点你在你的问题中引用。

从这两个观察结果来看,该方法似乎可能无法准确地处理这些数据,因为它并非旨在处理这种类型的网络。也许您可以检查度数分布:它是以特征值为中心的,还是异质的?那么重量呢,有吗?