我正在上信息检索课程。我们了解到搜索引擎的索引具有(可能除其他外):
- 将术语映射到其统计信息(频率、类型……)和
- 将术语映射到存储的文档的过帐列表(有或没有职位,字段,...)
这些是单独的数据结构。我明白为什么需要这些信息以及为什么需要这些信息。但我不明白为什么我们要把它们分开。为什么我们不能有一种将术语映射到统计数据和文档的数据结构?
我目前认为这可能是因为词汇量会小得多,我们可以从记忆中读取它。因此,我们可以使用统计信息来删除某些可能没有用的查询词,或者尝试在查询中查找拼写错误,而无需触及庞大的发布列表。
这是正确的还是有其他理由将词汇表和发布列表分开?