用于识别网络中丰富边缘的统计测试

机器算法验证 假设检验 统计学意义 p 值 图论 网络
2022-03-21 10:52:44

我有一个包含 N 个节点和 E 个有向边的网络。每条边 (Eij) 是一个整数,表示源节点 (Ni) 和目标节点 (Nj) 之间的连接数。

我的空模型是所有节点都具有相同的连接概率。换句话说,如果我们知道每个节点的入度和出度,那么仅此信息就足以估计所有节点之间的成对连通性。例如,如果节点 N1 拥有所有传出连接的 20%,而 N2 拥有所有传入连接的 10%,则在空模型下,边 E12 应代表图中总边权重的 2%。

但是,我希望某些节点对会优先连接——而这些情况正是我想发现的。例如,也许节点 3 和 7 总是相互连接(或从不连接) - 那么这将偏离空模型。我想找到一个可以识别这些情况的统计测试,最好控制网络的其余部分。

不幸的是,我很难找到适合这种情况的统计测试。如果有人能指出我正确的方向,我将不胜感激。


更新:

一种想法是计算每个节点的入度和出度,并使用它们生成 1000 个“随机”图(例如,通过从多项分布中随机抽样边)。然后,我可以通过将真实边缘权重与在原假设下随机生成的权重进行比较来计算每个边缘的经验 p 值。

不幸的是,这种方法无法解释整个图结构。例如,假设 N1 拥有所有传出连接的 20%,而 N2 拥有所有传入连接的 10%。在空模型下,边缘 E12 应该捕获总边缘权重的 2%,但假设它偏离了空模型,实际上捕获了总边缘权重的 10%。显然,边 E12 的 p 值将很重要 - 但许多其他边的 p 值也很重要,因为它们都是相对于彼此测量的。由于边 E12 占的连接数比预期的多,因此图中的其他边将被迫具有比预期更少的连接数。

因此,这种方法不太适合我的情况(尽管也许有一个简单的修改可以解决这个问题?)

1个回答

您描述的建模方法类型看起来很像指数随机图模型 (ERGM) 正在做的事情。

本质上,ERGM 是试图解释网络结构的模型。这个想法是了解导致观察到的网络中存在联系的过程。在您的 ERGM 中,您将感兴趣的配置(边数、倒数边数、特定类型的三元组数)指定为参数,并在给定观察到的网络的情况下,模型估计这些参数的系数。系数可以解释为在观察到的网络中观察到的特定配置比在一组可比较的随机图中观察到的更多(正系数)还是更少(负系数)。例如,如果 2 个节点因为共享特征 A 而更有可能连接,则您会发现特征 A 的同质效应的系数为正。

此描述是自愿非技术性的,详细的技术解释可在以下书籍中找到:

Lusher, D.、Koskinen, J. 和 Robins, G. eds.,2013 年。社交网络的指数随机图模型:理论、方法和应用。剑桥大学出版社。

R 有几个包用于估计 ERGM。ergm软件包具有开发良好的带有示例应用程序的小插曲。

Social Networks期刊发表了多篇使用 ERGM 进行分析的论文。