查询相似度:实际使用了多少数据?

数据挖掘 机器学习 数据集 文本挖掘 搜索
2022-01-24 17:56:16

我最近阅读了短文本段的相似性度量(Metzler 等人)。它描述了测量查询相似度的基本方法,并且在论文中,数据由查询及其顶部结果组成。结果是页面 url、页面标题和短页面片段的列表。在论文中,作者每个查询收集 200 个结果。

使用公共 Google API 检索结果时,我每次查询只能收集 ​​4-10 个结果。10 和 200 之间存在很大差异。因此,在实践中通常使用多少数据来衡量查询相似度(例如,每个查询有多少结果)?

参考文献是加分项!

1个回答

使用公共 Google API 检索结果时,我每次查询只能收集 ​​4-10 个结果。

以下是每个查询获得超过 10 个结果的方法:https: //support.google.com/customsearch/answer/1361951?hl=en

Google 自定义搜索和 Google 站点搜索每个查询最多返回 10 个结果。如果要向用户显示超过 10 个结果,可以发出多个请求(使用 start=0、start=11 ... 参数)并在单个页面上显示结果。在这种情况下,Google 会将每个请求视为一个单独的查询,如果您使用的是 Google Site Search,则每个查询都将计入您的限制。

还有其他搜索引擎 API(例如,Bing