我有一个已经分成簇的图。图中的每个节点都有一个标签(通常是函数的名称,如org.java.somepackage.validateLogin
)。我想要做的是给每个集群一个有代表性的标签。
为简单起见,假设我能够清理数据(即,将 'validateLogin' 中断为 'validate' 和 'login')
我对主题建模和集群标记的主题做了一些研究,并遇到了一些算法,例如:LDA,NMF和TF-IDF(本身并不是一个算法)
基本上,许多算法都是面向文档的,它们是针对单词的,而不是面向短文本/标签的。
值得一提的是:
我们可以利用不同的集群可能有不同的标签这一事实,因此集群的适当标签可能是整个词袋中的唯一词(我猜这可以用 TF-IDF 完成)
标签可以是一个词,但也可以暗示层次结构(即
packageA.packageB.packageC.funcName
)
如果您能给我您对这个问题的见解以及适合这里的方法,我会很高兴。