在进行 Google 图片搜索时,该页面会显示一些针对正在搜索的主题图片的分类。我有兴趣了解它是如何工作的,以及它如何选择和创建类别。
不幸的是,我根本找不到太多关于它的信息。是否有人能够阐明他们可能用来执行此操作的算法,以及创建这些类别的基础是什么?
例如,如果我搜索“动物”,我会得到以下类别:
“可爱”、“婴儿”、“野生”、“农场”、“动物园”、“剪贴画”。
如果我进入“狂野”,我就会有子类别:
“森林”、“婴儿”、“非洲”、“剪贴画”、“雨林”、“国内”。
在进行 Google 图片搜索时,该页面会显示一些针对正在搜索的主题图片的分类。我有兴趣了解它是如何工作的,以及它如何选择和创建类别。
不幸的是,我根本找不到太多关于它的信息。是否有人能够阐明他们可能用来执行此操作的算法,以及创建这些类别的基础是什么?
例如,如果我搜索“动物”,我会得到以下类别:
“可爱”、“婴儿”、“野生”、“农场”、“动物园”、“剪贴画”。
如果我进入“狂野”,我就会有子类别:
“森林”、“婴儿”、“非洲”、“剪贴画”、“雨林”、“国内”。
我不在谷歌工作,但我认为这是一种基于数百万用户之前搜索过的词的推荐系统。因此,那些搜索“动物”的人通常会搜索“野生动物”。与许多在线商店一样,他们建议您根据其他用户之前的购买情况,购买您正在寻找的产品之外的其他东西。
有很多方法可以使用机器学习来构建这样的推荐系统,没有人确切知道谷歌使用的是什么。
我想对 Stanpol 的答案进行一些扩展。虽然推荐系统是一种建议相关查询的方法,但另一种标准的基于信息检索的方法是查询扩展技术。
一般来说,查询扩展涉及从响应初始查询而检索到的排名靠前的文档中选择附加术语。术语通常通过术语评分函数(例如 tf-idf)和基于共现的度量的组合来选择。
例如,为了响应查询词“动物”,词条选择函数可以选择词条“动物园”,因为
谷歌不会放弃他们的专有工作,但我们可以推测。
以下是我可以从有限的使用中收集到的信息:
在我看来,他们这样做是基于一般最终用户群体的历史,当有许多受欢迎的推荐时,他们会轮换推荐,并且他们会进行一些额外的处理以确定结果集的大小是否合理。
我假设它的工作原理如下:
我不在 Google 工作,但根据 2016 年 10 月的这篇博客文章“Google 的图形驱动机器学习”,他们使用了一个名为“Google Expander”的内部软件,并且“结合神经网络”它执行半监督基于图论的学习。
博客文章说,这篇arXiv 论文,2015 年使用流式近似的大规模分布式半监督学习为这个问题提供了更长的技术答案。