我最近阅读了短文本段的相似性度量(Metzler 等人)。它描述了测量查询相似度的基本方法,并且在论文中,数据由查询及其顶部结果组成。结果是页面 url、页面标题和短页面片段的列表。在论文中,作者每个查询收集 200 个结果。
使用公共 Google API 检索结果时,我每次查询只能收集 4-10 个结果。10 和 200 之间存在很大差异。因此,在实践中通常使用多少数据来衡量查询相似度(例如,每个查询有多少结果)?
参考文献是加分项!
我最近阅读了短文本段的相似性度量(Metzler 等人)。它描述了测量查询相似度的基本方法,并且在论文中,数据由查询及其顶部结果组成。结果是页面 url、页面标题和短页面片段的列表。在论文中,作者每个查询收集 200 个结果。
使用公共 Google API 检索结果时,我每次查询只能收集 4-10 个结果。10 和 200 之间存在很大差异。因此,在实践中通常使用多少数据来衡量查询相似度(例如,每个查询有多少结果)?
参考文献是加分项!
使用公共 Google API 检索结果时,我每次查询只能收集 4-10 个结果。
以下是每个查询获得超过 10 个结果的方法:https: //support.google.com/customsearch/answer/1361951?hl=en
Google 自定义搜索和 Google 站点搜索每个查询最多返回 10 个结果。如果要向用户显示超过 10 个结果,可以发出多个请求(使用 start=0、start=11 ... 参数)并在单个页面上显示结果。在这种情况下,Google 会将每个请求视为一个单独的查询,如果您使用的是 Google Site Search,则每个查询都将计入您的限制。
还有其他搜索引擎 API(例如,Bing)