为什么特征向量可能是中心性的合理概念

数据挖掘 社会网络分析
2021-09-15 18:03:02

使用邻接矩阵表示节点 i 和节点 j 之间的连接,1 表示已连接,0 表示未连接。

用特征向量来表示中心度意味着一个节点连接的中心度值越高的节点越多,该节点的中心度值就越高。

特征向量本身只是一个经过变换的向量,结果向量与原始向量的方向相同或完全相反。

我真的看不出这两个属性之间的关系。

2个回答

让我们网络的邻接矩阵为A{0,1}n×n有一个空对角线 (Aii=0i)。

直接方法

让我们从节点的中心性(Ci) 应与具有比例常数的邻居的中心性之和成正比 1λ (因此选择了一些远见):

Ci=1λj=1nAijCj.

这不过是矩阵-向量乘法的逐行公式:

λC=A·C,

这正是特征向量的定义。现在,要了解为什么选择最大特征向量,我们可以求助于Perron–Frobenius 定理,它告诉我们对于这个特征值(并且在连接网络的情况下,只有这个特征值),我们可以找到一个特征向量分量,即特征向量中心性为正。

迭代方法

或者,我们可以迭代地解释上述 ansatz :

  1. 将随机正值分配给 C.
  2. 根据以下内容更新这些值:

    CA·C|A·C|.

    这意味着每个组件都根据以下内容进行更新:

    Ci1|A·C|j=1nAijCj,

    即,您说节点的新中心性是其邻居的中心性之和 - 乘以一些标准化以避免值变得非常大。

  3. 重复步骤 2,直到中心收敛。这个想法是,如果这收敛到一个独特的结果,这个结果不仅满足Cij=1nAijCj但在这方面也很强大。

对于几乎所有的初始选择C,这将收敛到正的、长度为 1 的特征向量到最大的特征值(它存在并且对于连接的网络是唯一的,见上文)。这样做的原因是沿着特征向量到最大特征值的分量将通过乘法得到最大的放大,从而在迭代中支配其他分量。(在最大特征值的特征向量上没有分量在现实中不会发生,这就是为什么它几乎都在上面的原因。)

请注意,这种迭代也可用于数值确定最大特征值。

让我们将顶点的中心度定义为与其邻居中心度之和成正比。如果你把它写出来并结合邻接矩阵,特征分解立即出现,比例常数作为特征值的倒数。特征向量的相关性是通过它定义中心性:一个顶点的得分是第一个特征向量上的对应条目。我们必须选择第一个特征向量,因为邻接矩阵是非负的,并且由于 Perron-Frobenius 定理,我们希望中心性也是如此(有关详细信息,请参阅这些讲义)。因此,如果我们的中心性本质上与转移矩阵的特征向量相关,我们如何找到它们?通过使用幂法,它依赖于它们的不动点性质!如果你变换一个特征向量,你会得到一个共线向量(你想要关联的属性),那么为什么不在收敛之前对它进行随机估计,并在我们进行过程中进行归一化呢?此外,如果我们稍微重新构造问题以使用随机矩阵,则分数可以直接解释为在相应顶点处终止的随机游走的概率!

如果你真的很好奇,这里有一本专着:Google's PageRank and Beyond欢迎来到本站。