我们正在根据与空缺的相似程度对文本进行排名。我们有来自社交网络的自定义搜索提要的 4 年数据集(≈1M 文本)。我们还从该集合中手动选择了空缺职位(≈30K)。
现在,职位空缺分两个阶段进行选择:
我们通过 API 在社交网络上进行几个特定的搜索查询(即“需要翻译”),接收并将搜索提要合并为一个。
然后我们查看其中的每个帖子以查找真正的职位空缺。通常,它应该包含对口译服务的请求。它通常包含一些工作细节(如地点、薪水、主题、截止日期、语言、联系人)和语言的风格特征(即问候、感叹、要求私下写作、寻求建议等)。
在第 2 点之前,我们希望在最后的审核中首先提供最有可能是空缺的文本。我们将尝试使用朴素贝叶斯分类器或自然语言处理进行排名,但这并不像看起来那么简单:有很多不同的工具、方案、模型。
问题是,在我们的案例中,哪些算法和工具可以提供帮助?我们应该注意什么?