数据挖掘 - 使用本体推断流程模型的标签 - 吾爱随笔录

我正在尝试实现一种特定类型的流程挖掘，这已在本论文 [链接]中提出。它基于 HMM，并以有向图的形式生成流程模型，其中：

节点称为意图，对应隐藏状态
边缘被称为策略，由不同的活动组成
这些活动对应于 HMM 的可观测排放
可以使用不同的策略来实现意图

由用户 ID、时间戳和活动组成的用户事件日志用作输入。下图是此类流程模型的示例。突出显示的节点和边缘类似于使用维特比算法预测的路径。

您可以看到图形的节点和边仅带有数字标签，可以区分不同的策略和意图。为了使这些标签对人类读者更有意义，我想推断一些合适的标签。

我的想法是使用本体来获取这些标签。经过一番研究，我发现我可能需要做一些通常被称为“本体学习”的事情。为此，我需要以 RDF/OWL 格式创建一些公理，然后将它们用作推理器的输入，从而推断出本体。

这种方法对实现我的目标是否正确和合理？

如果这是要走的路，我将需要一些工具来自动生成公理。到目前为止，我找不到任何可以完全开箱即用的工具。根据我目前所见，我得出结论，我需要在原始数据和所需公理之间定义某种映射。我仔细研究了 protégé，它提供了一个电子表格插件。它似乎基于MappingMasterDSL 项目 [链接]。

我还发现了一篇关于本体学习的有趣论文 [链接]，其中基于 RNN 的模型以端到端的方式进行训练，以将定义的句子翻译成 OWL 公式。但是：我的用户事件日志数据不包含任何自然句子。它的活动由源自用户界面的 HTML 元素的标记定义。因此，基于 RNN 的方法在这里似乎并不适用。（对于感兴趣的读者，相关项目可以在这里找到[链接]）

真的没有比手工制作公理模式（ta）更简单的方法吗？

假设我已经创建了我的公理并推断了一个本体，我想使用策略（边缘）的可观察活动（发射）来推断一个合适的标签。我想我需要以某种方式查询我的本体。我可以使用活动名称作为查询的参数，并查找一些显示所需标签的相关实体。我期待类似的东西：

“我有一个策略ID=3，该策略可以通过操作执行a，b并且c，给我本体的所有实体，这些实体将这些操作作为属性值，并显示并给我这些实体的所有相关标签”

但是标签的数据实际上来自哪里？

我认为我在本体学习的过程中遗漏了一些重要的步骤。我在哪里可以找到标签的附加数据源以及如何将这些数据与我的本体实体相关联？

另外我想知道是否有一种方法可以将流程模型拓扑的固有知识合并到我的本体中。