我的设置是这样的:
假设我有很长一段时间内的交易数据。每笔交易的各方都有标签,我使用 Louvain 算法在每个任意时间步长(一天,24 小时)中检测社区(和子社区)。
我还使用了各方和 tf-idf 的标签,在每个时间步长中为每个社区提供了一些字面的、概括的描述。这使我能够手动关注我发现对我的特定研究感兴趣的几个社区,这些社区定期出现在每个时间步长中(它们在组成它们的节点方面有些一致 - 每天大多是相同的节点)。也可能是这样的社区在某个时间步内根本不会出现(通常,那天它还不够“整合”,所以鲁汶只能检测到它的孤立组成部分)。
根据以前的知识,我还可以用一些与我的研究相关的标签来标记每个时间步。例如,标签可能是:“婚礼”、“葬礼”、“生日”、“普通日”。这一点至关重要:通过区分在普通日子检测到的社区和在特殊日子检测到的社区,我的目标是识别它们的区别——并最终将其用于预测模型。
最后,在每个时间步长中,我还计算了每个社区中每个节点的中心性度量,例如度数以及介数和紧密度。
鉴于此设置,
我意识到我正在处理一种新的数据集:社区实例(即特定时间步长中的特定社区)。这使我认为将每个社区实例表示为特征向量将使我能够将它们聚集在一起,以实现我的目标。
有一些直接属性可以包含在这样的向量中,例如:节点数、边数、子社区数、平均度数等。
一个不那么简单的向量表示可以是每个子社区(父社区实例的)中节点数量的有序列表,而在其他地方为零。(向量长度是找到的子社区的最大数量)。一种更复杂的方法是计算每个社区实例中节点的中心性度量的方差(和均值),并将其用作特征。
总的来说,我想知道是否有任何基于类似方法(将社区实例嵌入为特征向量)的成功研究案例,如果有,使用了哪些特征?或者,这种方法有什么缺陷吗?或者更具体地说,在我建议的功能中?
任何帮助,将不胜感激。