图表示与数据矩阵表示的预测差异

机器算法验证 机器学习 分类 数据挖掘 图形模型 图论
2022-04-14 07:57:57

数据挖掘中,数据通常可以用不同的形式表示,例如矩阵图形有序数据的记录。虽然我们在研究中发现了针对这些不同表示的不同方法或解决方案的不同论文,但没有明确描述每种表示与其他表示相比的优势(即,何时可以应用不同的表示来解决问题,在什么条件下,特定的代表会有优势吗?)。

在这里,我很想知道图形表示相对于数据矩阵表示的优势是什么,反之亦然。我意识到不同的问题会以两种方式之一的直观表示。例如,社交网络直观地表示为图表,而患者记录直观地表示为数据矩阵。但是,我想知道当有预测任务时这些表示如何比较,并且两种表示都可以用来解决任务。

一个可以说明我兴趣的例子是化学-蛋白质相互作用网络。在这个网络中,可能对特定蛋白质靶点产生影响的化学物质将具有积极的关系。这种主动关系可以表示为图表中化学物质和蛋白质之间的权重为 1 的边,也可以表示为记录中描述化合物的一组特征的正标记。另一个例子是作者-论文网络。为了预测论文的作者,我们可以从论文中提取特征并构建我们的数据矩阵。另一种方法是构建一个图表,其中一篇新论文与最相似的论文链接,然后,我们尝试根据遍历图表来预测谁可能是作者。

我曾经考虑过这两种表示的一个答案是描述数据的不同级别。在数据矩阵中,具有描述给定案例或样本的许多变量的优点。另一方面,在图中,它只是代表样本之间相似性的一个变量。然而,图拓扑可能会突出网络中的重要节点。还有什么 ?

总之,我很想知道专家关于何时使用图形表示或数据矩阵表示的建议,为什么?如果您是喜欢图表并喜欢挖掘图表的人,请告诉我为什么?

1个回答

我试图从一个方面回答这个问题。

一般来说,一个图可以用一个矩阵来描述,列和行由顶点索引,元素对应于边的权重。并且相邻矩阵也可以描述一个无向/有向图。所以图分析通常相当于对矩阵进行分析。事实上,很多基于图的算法都可以通过矩阵运算来实现,生物网络、社交网络等一些大数据问题(还有最著名的就是google页面排名)往往会被当作矩阵来做进一步的数值计算分析。

以社交网络为例。网络分析使用节点来表示人和边来表示两个人之间的联系或关系。您可以使用两种颜色的节点来表示性别,并使用从节点 A 到 B 的有向边表示“A 选择 B”。当从 A 到 B 和 B 到 A 都有两条有向边时,它们的联系是互惠的,它们共享一个关系。但这可能是图表可以包含的所有信息。我们不知道共享领带是否意味着 A 和 B 是配偶或朋友,尽管我们可能会引入更多形式的线条来区分它们(虚线、颜色线等)。然而,当网络中有很多人和/或多种关系时,图表在视觉上变得过于复杂而无法显示模式。

以矩阵形式表示信息似乎更灵活。因为我们可以

(1) 建立一堆矩阵。我们用二进制矩阵分离不同的关系。我们还可以,

(2) 执行矩阵置换,然后得到一个块密度矩阵(例如男性和男性,男性和女性,女性和女性之间的一种特定关系的比率......)。

(3) 使用布尔矩阵、AND、OR、XOR.. 以及其他矩阵,可以对选定的矩阵进行加法、减法、乘法甚至逆运算以进行进一步处理。

(4) 这些矩阵运算都有其实际意义。

 (i) Adjacency matrix indicates whether there exists a path between two people, and the paths number of length one from each person to another; 

 (ii) Squared adjacency matrix tells us how many pathways of length two are there from each person to another, so on and so forth. Measuring the path number and lengths among the people in the social network allow us to index and infer some important tendencies; 

 (iii)The eigenvector analysis is another approach to find the "global" structure of the network in opposite to a  "local" feature. 

(5) 最后但并非最不重要的一点是,子组或团(图)中的结构分析也可以用矩阵表示。并且聚类方法还处理高维数组。