时态网络中的链路异常检测

机器算法验证 时间序列 机器学习 异常值 Python 变化点
2022-01-29 16:59:00

我偶然发现了这篇论文,它使用链接异常检测来预测热门话题,我发现它非常有趣:这篇论文是“通过链接异常检测发现社交流中的新兴话题”

我很想在不同的数据集上复制它,但我对知道如何使用它们的方法不够熟悉。假设我有一系列为期六个月的节点网络快照。节点具有长尾度分布,大多数只有少数连接,但有些连接很多。在此时间段内出现新节点。

我如何实现论文中使用的顺序折扣归一化最大似然计算来检测我认为可能是爆发前兆的异常链接?还有其他更合适的方法吗?

我在理论上和实践上都问。如果有人能指出我在 python 或 R 中实现这一点的方法,那将非常有帮助。

任何人?我知道你们那里的聪明人有一些开始的想法来回答,

1个回答

您应该首先为新节点提出异常分数的定义(参见第 3.1、3.2 节)。幸运的是,新帖子(在他们的情况下)和新节点(在你的情况下)之间的对应关系几乎是一对一的,因为我们只对节点(帖子)所在的节点(用户)集感兴趣相关。

因此,我们可以通过它拥有的边/连接数 k 以及它所连接的其他节点的集合 V 来表征一个新节点。因此,等式 (1)-(4) 可以用类似的方式编写。然后,您可以使用中餐厅流程,如第 3.1 小节末尾所述,在引入新参数后γ. 现在,假设您已经获得了概率(3),您可以获得链接异常分数(7)。

进一步询问,如果您难以按照第 3.4 小节中描述的步骤进行操作,其中应用了 SDNML。