数据挖掘 - 查询相似度：实际使用了多少数据？ - 吾爱随笔录

查询相似度：实际使用了多少数据？

数据挖掘机器学习数据集文本挖掘搜索

2022-01-24 17:56:16

我最近阅读了短文本段的相似性度量（Metzler 等人）。它描述了测量查询相似度的基本方法，并且在论文中，数据由查询及其顶部结果组成。结果是页面 url、页面标题和短页面片段的列表。在论文中，作者每个查询收集 200 个结果。

使用公共 Google API 检索结果时，我每次查询只能收集 4-10 个结果。10 和 200 之间存在很大差异。因此，在实践中通常使用多少数据来衡量查询相似度（例如，每个查询有多少结果）？

参考文献是加分项！

1个回答

使用公共 Google API 检索结果时，我每次查询只能收集 4-10 个结果。

以下是每个查询获得超过 10 个结果的方法：https: //support.google.com/customsearch/answer/1361951?hl=en

Google 自定义搜索和 Google 站点搜索每个查询最多返回 10 个结果。如果要向用户显示超过 10 个结果，可以发出多个请求（使用 start=0、start=11 ... 参数）并在单个页面上显示结果。在这种情况下，Google 会将每个请求视为一个单独的查询，如果您使用的是 Google Site Search，则每个查询都将计入您的限制。

还有其他搜索引擎 API（例如，Bing）

其它你可能感兴趣的问题

上一篇用于评估文本检索质量的数据集下一篇Hadoop资源管理器不会启动