我想知道是否有人可以帮助我或指出一些资源以了解有关 TF-IDF 和文档搜索的更多信息。
我正在尝试实现一个基本的文档搜索,并试图更好地理解我的方法的差异和权衡。
我目前的方法是解析/提取一组文档中的所有单词,并为每个文档-单词对计算一个标准化的 TF-IDF 值。当我使用关键字进行查询时,我只需查找关键字中的每个单词,将每个文档单词的 TF-IDF 值相加,然后以这种方式对它们进行排名。
使用这种方法是否有任何权衡/差异/错误?它与为每个文档创建一个向量、为搜索查询创建一个向量以及使用余弦相似度来找到最接近的匹配项相比如何?