使用用户输入改进结果

数据挖掘 机器学习 词嵌入 排行
2022-03-06 00:51:38

我开发了一个工具,可以根据用户键入的内容从数据库中检索最接近的表达式。(使用词嵌入 - 在数据库中的每个表达式和用户输入之间进行比较)

n-result 被检索,但最接近的表达式不一定是最相关的。

例如,通过键入:医院机器

排名靠前的结果将是“透析机”、“医疗机”……但我也会找到诸如“建筑机器”、“办公机器”之类的表达方式

用户很可能会选择与药物相关的机器。

有没有办法根据用户输入优化我的排名系统,同时保持表达式向量之间的这种相似性?

1个回答

理解两个短语之间的相似性有两个方面

  1. 短语中的独特标记有多相似?
  2. 单个标记对整体短语相似性的贡献有多大?

要回答 1,您可以使用向量相似度,它可以为含义相似的标记提供高相似度。要回答 2,您应该考虑为标记赋予重要性/权重。您可以使用tf-idf 之类的度量。在比较hospital machine 和 building machine时,machine作为您语料库中的常用词应该得到较低的分数,因此对整体相似性的贡献较小。然后,大多数相似性将由医院建筑物之间的相似性决定,这将解决您的问题。