我能否获得有关用于对 stackoverflow 中的问题进行分类的算法的详细信息(“可能已经有你答案的问题”)。我得到的大多数建议都与我打算提出的问题无关。
stackoverflow 使用哪些算法对重复问题进行分类?
人工智能
自然语言处理
2021-10-26 07:36:24
1个回答
我不相信 StackExchange 已经准确地发布了他们为此使用的算法,所以我们无法确定。
但是,在这个 meta.stackexchange 问题中,您可以了解在收集训练数据以训练此类分类器方面所做的一些工作。该帖子还链接到“CQADupStack:黄金还是白银?” 论文描述了对直接来自 StackOverflow 的此类数据集的分析。您可以通过浏览谷歌学者找到引用该论文的论文来找到有趣的文献。
还有另一个关于此主题的 meta.stackoverflow 讨论,其中答案链接到为此目的的各种社区开发的项目/机器人。同样,不一定是 StackExchange 站点实际使用的内容,但可能类似。
最后,肯定有很多关于执行此类分类的研究(通过快速谷歌搜索找到的一个示例是“堆栈溢出中的重复问题检测:可重复性研究”,在参考文献列表中可以找到许多其他相关出版物) . 这又不一定导致恰好是 StackExchange 恰好使用的算法,而是许多相关的算法,其中一个或多个他们可能正在使用。