应用于亚马逊图书图的中介中心性

机器算法验证 数据可视化 民意调查 图论 交互式可视化
2022-03-21 09:06:06

我对亚马逊相关产品进行了可视化。可视化中的每个链接都意味着经常一起购买两种产品。

现在我正在应用各种图形分析技术,并对结果着迷。但最大的问题是将科学术语翻译成人类语言(如果听起来势利,请原谅我)。

例如,我计算了节点的度中心性,我称之为“这里流行什么”。毕竟,连接最多的节点意味着它最常与给定图中的所有其他产品一起购买。

目前我正在研究中间中心性,它产生了非常有趣的结果,通常与度中心性相矛盾但是你会如何解释这些结果呢?最重要的产品?

例如,R 编程艺术的书籍图以下前 3 个节点:

度中心性:

  1. R 编程的艺术- 18 个输出边
  2. R Cookbook (O'Reilly Cookbooks) - 14 个输出边
  3. 进行贝叶斯数据分析:R 和 BUGS 教程- 10 个输出边

中介中心性:

  1. R 编程的艺术- 1210 的中心值
  2. 什么是 p 值?- 中心性值为 896
  3. 可视化这个- 中心值 784

图表本身如下所示:

在此处输入图像描述

2个回答

我花了相当多的时间研究社交网络(例如,Facebook 社交游戏中的玩家网络),其中涉及频繁计算和比较这三种中心性度量(度中心性、介数中心性和接近中心性)。

对于它的价值,这是我对这些指标的解释,基于反复计算并与玩 Facebook 游戏的人进行比较。

度中心性:名人——几乎总是以度中心性降序排列的球员是我立即认出的名字(这也可能是因为我花太多时间阅读雅虎名人新闻和八卦)。

计算 D/C:该指标只是给定节点的边数的原始计数。

接近中心性:具有最高 C/C 的玩家在很大程度上与具有最高 D/C 的组不同。一般来说,C/C 高的玩家会花很多时间玩 FB 游戏——对于前 5% 的玩家来说,C/C 与总会话数或总游戏时间密切相关。

计算 C/C: (i) 计算网络中所有节点的成对最小路径长度(使用 Dijkstra 算法);(ii) 对于节点 A,计算到网络中所有其他节点的平均路径长度;(iii) 接近中心性等于平均路径长度除以最大路径长度的 1。C/C 的值范围从 0 到 1,数字越大表示平均距离越小

中间中心性:我再次注意到,该指标中的领导者与 D/C 或 C/C 中的最高得分者之间几乎没有相关性。

考虑到这个指标背后的直觉有多么不同,这并不让我感到惊讶。B/C 包含两个相关的概念。第一个是“边界扳手”的概念——例如,如果一个人连接了两个不同的、独立的子网络,那么他们很可能具有影响力。“瓶颈”是第二个概念——例如,处于分销瓶颈的个人或公司仅仅因为该位置而行使权力。

计算 B/C: (i) 重复上述紧密中心性计算的第一步;(ii) 从第一步计算的最短路径列表中,计算包含节点 A 的数量。

度中心性和接近中心性之间的区别——或者实际上是任何其他中心性度量——答案是你在识别不同的东西。

目前我正在研究中介中心性,它产生了非常有趣的结果,通常与度中心性相矛盾。但是你会如何解释这些结果呢?最重要的产品?

我不一定称它为最重要的产品。在我看来,更好的描述可能是“核心”产品——无论您购买什么,这些产品都相对容易结束。查看您的图,三个最受欢迎的节点都位于图的中心附近。它们定义了一些地方,一旦你移出你的子领域,你就会有一本更高级别的书来定义几个组。

Visualize This为例,它最清楚地说明了这一点。即使人们共同购买关于 Tufte 的理论和关于琐事的信息图表的书籍,Visualize This也是一本普通的基础书籍,与任何一组都相差不远。

p值账簿也是如此。没有人联合购买一本《自然科学白痴指南》一书、一本《流行统计》一书和一本《生物统计学》一书。但是这三个人最终都可以并且确实最终购买了什么是 p-value 呢?它是一本核心书籍,对三类不同的读者有用。