机器算法验证 - 用于识别网络中丰富边缘的统计测试 - 吾爱随笔录

我有一个包含 N 个节点和 E 个有向边的网络。每条边 (Eij) 是一个整数，表示源节点 (Ni) 和目标节点 (Nj) 之间的连接数。

我的空模型是所有节点都具有相同的连接概率。换句话说，如果我们知道每个节点的入度和出度，那么仅此信息就足以估计所有节点之间的成对连通性。例如，如果节点 N1 拥有所有传出连接的 20%，而 N2 拥有所有传入连接的 10%，则在空模型下，边 E12 应代表图中总边权重的 2%。

但是，我希望某些节点对会优先连接——而这些情况正是我想发现的。例如，也许节点 3 和 7 总是相互连接（或从不连接） - 那么这将偏离空模型。我想找到一个可以识别这些情况的统计测试，最好控制网络的其余部分。

不幸的是，我很难找到适合这种情况的统计测试。如果有人能指出我正确的方向，我将不胜感激。

更新：

一种想法是计算每个节点的入度和出度，并使用它们生成 1000 个“随机”图（例如，通过从多项分布中随机抽样边）。然后，我可以通过将真实边缘权重与在原假设下随机生成的权重进行比较来计算每个边缘的经验 p 值。

不幸的是，这种方法无法解释整个图结构。例如，假设 N1 拥有所有传出连接的 20%，而 N2 拥有所有传入连接的 10%。在空模型下，边缘 E12 应该捕获总边缘权重的 2%，但假设它偏离了空模型，实际上捕获了总边缘权重的 10%。显然，边 E12 的 p 值将很重要 - 但许多其他边的 p 值也很重要，因为它们都是相对于彼此测量的。由于边 E12 占的连接数比预期的多，因此图中的其他边将被迫具有比预期更少的连接数。

因此，这种方法不太适合我的情况（尽管也许有一个简单的修改可以解决这个问题？）