在数据挖掘中,数据通常可以用不同的形式表示,例如矩阵、图形或有序数据的记录。虽然我们在研究中发现了针对这些不同表示的不同方法或解决方案的不同论文,但没有明确描述每种表示与其他表示相比的优势(即,何时可以应用不同的表示来解决问题,在什么条件下,特定的代表会有优势吗?)。
在这里,我很想知道图形表示相对于数据矩阵表示的优势是什么,反之亦然。我意识到不同的问题会以两种方式之一的直观表示。例如,社交网络直观地表示为图表,而患者记录直观地表示为数据矩阵。但是,我想知道当有预测任务时这些表示如何比较,并且两种表示都可以用来解决任务。
一个可以说明我兴趣的例子是化学-蛋白质相互作用网络。在这个网络中,可能对特定蛋白质靶点产生影响的化学物质将具有积极的关系。这种主动关系可以表示为图表中化学物质和蛋白质之间的权重为 1 的边,也可以表示为记录中描述化合物的一组特征的正标记。另一个例子是作者-论文网络。为了预测论文的作者,我们可以从论文中提取特征并构建我们的数据矩阵。另一种方法是构建一个图表,其中一篇新论文与最相似的论文链接,然后,我们尝试根据遍历图表来预测谁可能是作者。
我曾经考虑过这两种表示的一个答案是描述数据的不同级别。在数据矩阵中,具有描述给定案例或样本的许多变量的优点。另一方面,在图中,它只是代表样本之间相似性的一个变量。然而,图拓扑可能会突出网络中的重要节点。还有什么 ?
总之,我很想知道专家关于何时使用图形表示或数据矩阵表示的建议,为什么?如果您是喜欢图表并喜欢挖掘图表的人,请告诉我为什么?