为什么纯 KG 嵌入方法不能发现多跳关系路径?
为了将此插入内容置于上下文中,我们应该至少从论文中获取这么多文本:
一项研究侧重于使用知识图嵌入模型进行推荐,例如 TransE [2] 和 node2vec [5]。这些方法在正则化向量空间中对齐知识图,并通过计算实体的表示距离来揭示实体之间的相似性 [30]。然而,纯 KG 嵌入方法缺乏发现多跳关系路径的能力。
在我的理解中,pure KG embedding这里指的是TransE和node2vec解决方案。要了解有关这些的更多信息,我们应该阅读链接 [1] 和 [2]。从[1]:
通常,我们使用三元组(头、关系、尾)来表示知识。在这里,头和尾是实体。例如,(天空树、位置、东京)。我们可以使用 one-hot 向量来表示这个知识。
稍后在同一来源上,对解决方案的定义部分末尾有一个解释TransE:
但是这个模型只能处理一对一的关系,不适合一对多/多对一的关系,比如有两个知识,(skytree, location, tokyo)和(gundam,地点,东京)。训练后,‘天空树’实体向量将与‘高达’实体向量非常接近。但它们在现实中并没有这种相似性。
另一方面,[3] 告诉我们:
如上所述的知识图代表了我们知识的静态快照。它并没有反映它是如何建立知识的过程。在现实世界中,我们通过观察时间模式来学习。虽然可以学习节点 A 和节点 B 之间的相似性,但很难像 3 年前那样看到节点 A 和节点 C 之间的相似性。
论文中的解决方案“--,每个推荐的项目都与大约 1.6 条推理路径相关联。” 据说这是不可能的TransE解决方案。
因此,知识图谱纯粹是一个静态快照,可以非常准确地识别一对一的发现。实际上根据 [2] 所讲述node2vec的工作原理,他们还可以描述和组合更多信息(同时node2vec结合不同类型的相似性),但无论如何我认为重点实际上是引文中的一个词:discover!
论文中建议的模型在 KG 建模中添加了强化学习原则,也就是说,纯 KG 嵌入总是告诉一个基于距离的统计解决方案,但是基于 RL 的解决方案可能会在幕后学习更多方面,因为它通过尝试和错误来学习更多行为背后的复杂路径。
另一方面,论文说,当将他们的解决方案与 pure 联系起来时TransE:
它可以被视为单跳潜在匹配方法,但事后解释不一定反映生成推荐的真正原因。相比之下,我们的方法通过知识图谱上的显式路径推理过程生成推荐,从而使解释直接反映决策的生成方式,从而使系统透明。
因此,TransE在给定的环境中是否真的可以推荐事物,推荐推理路径可能会保持模糊。
资料来源:
[1] https://towardsdatascience.com/summary-of-translate-model-for-knowledge-graph-embedding-29042be64273
[2] https://towardsdatascience.com/node2vec-embeddings-for-graph-data-32a866340fef
[3] https://towardsdatascience.com/extracting-knowledge-from-knowledge-graphs-e5521e4861a0