我尝试检测不同类型源代码文本(网页、程序代码)的共同作者身份(个人、公司)的概率。我的第一个想法是应用通常的 NLP 工具,如任何基于令牌的文档表示(TF-IDF 或嵌入)并在这些工具上计算相似性,但不知何故,我发现这种方法有点笨拙。我想检测似乎超出此方法范围的“手印”(特征注释和缩写样式、文件夹结构、使用的第 3 方工具、代码中元素的顺序等)。
此外,我在这里找不到任何合适的机器学习的地方。显然,为任何未来的量化特征找到权重会很好,但是这个相似性任务不是分类/回归,那么如何定义目标呢?聚类似乎是一种更好的工具,但我们无法定义与潜在作者一样多的类别。
您能否建议任何更可靠的方法?有没有关于这个主题的文献?