Google 如何对其图像搜索的结果进行分类?

数据挖掘 机器学习 分类 谷歌 搜索
2021-09-20 01:30:10

在进行 Google 图片搜索时,该页面会显示一些针对正在搜索的主题图片的分类。我有兴趣了解它是如何工作的,以及它如何选择和创建类别。

不幸的是,我根本找不到太多关于它的信息。是否有人能够阐明他们可能用来执行此操作的算法,以及创建这些类别的基础是什么?

例如,如果我搜索“动物”,我会得到以下类别:

“可爱”、“婴儿”、“野生”、“农场”、“动物园”、“剪贴画”。

如果我进入“狂野”,我就会有子类别:

“森林”、“婴儿”、“非洲”、“剪贴画”、“雨林”、“国内”。

4个回答

我不在谷歌工作,但我认为这是一种基于数百万用户之前搜索过的词的推荐系统。因此,那些搜索“动物”的人通常会搜索“野生动物”。与许多在线商店一样,他们建议您根据其他用户之前的购买情况,购买您正在寻找的产品之外的其他东西。

有很多方法可以使用机器学习来构建这样的推荐系统,没有人确切知道谷歌使用的是什么。

我想对 Stanpol 的答案进行一些扩展。虽然推荐系统是一种建议相关查询的方法,但另一种标准的基于信息检索的方法是查询扩展技术。

一般来说,查询扩展涉及从响应初始查询而检索到的排名靠前的文档中选择附加术语。术语通常通过术语评分函数(例如 tf-idf)和基于共现的度量的组合来选择。

例如,为了响应查询词“动物”,词条选择函数可以选择词条“动物园”,因为

  • “zoo”可能是响应查询“animal”而检索到的顶部(比如 10 个)文档中的主要术语(高 tf-idf)
  • 在这些文档中,“zoo”可能与原始查询词“animal”频繁(接近地)同时出现

谷歌不会放弃他们的专有工作,但我们可以推测。

以下是我可以从有限的使用中收集到的信息:

  1. 这些建议似乎不是特定于用户、地理或历史的。
  2. 永远不会有空的推荐(不返回结果的推荐)
  3. 并不总是有推荐(有些搜索只返回图像)
  4. 建议并不总是相同的(连续搜索有时会返回不同的建议)
  5. 结果排序定期变化(搜索特定图像,它不会总是在同一个地方)
  6. 非常受欢迎的搜索似乎是预先计算好的,并且比不受欢迎的搜索更静态。
  7. 推荐并不总是一个额外的词,推荐并不总是包括基本查询。

在我看来,他们这样做是基于一般最终用户群体的历史,当有许多受欢迎的推荐时,他们会轮换推荐,并且他们会进行一些额外的处理以确定结果集的大小是否合理。

我假设它的工作原理如下:

  1. 使用来自用户的连续搜索字符串(短尾搜索)作为机器学习算法的训练数据。
  2. 针对该推荐算法运行每周发生 > N 次的搜索。
  3. 验证和清理结果。
  4. 在轮换/AB 测试中将它们推向普通人群。
  5. 跟踪点击次数。
  6. 随着时间的推移细化结果。

我不在 Google 工作,但根据 2016 年 10 月的这篇博客文章“Google 的图形驱动机器学习”,他们使用了一个名为“Google Expander”的内部软件,并且“结合神经网络”它执行半监督基于图论的学习。

博客文章说,这篇arXiv 论文,2015 年使用流式近似的大规模分布式半监督学习为这个问题提供了更长的技术答案。

2016 arXiv 论文,关于智能 gmail 响应