用于评估文本检索质量的数据集

数据挖掘 数据集 文本挖掘 相似 信息检索
2022-02-10 17:55:18

我正在搜索用于评估文本检索质量的数据集。

TF-IDF 是一种流行的相似性度量,但它是最佳选择吗?哪种变体是最佳选择?例如, Lucenes Scoring使用 IDF^2,IDF 定义为 1+log(numdocs/(docFreq+1))。lucene 中的 TF 定义为 sqrt(frequency)...

存在更多变体,包括Xapian 搜索引擎使用的Okapi BM25 ...

我想研究不同的变体,我正在寻找评估数据集谢谢!

1个回答

TF IDF 将为您提供文档与查询的相关程度的衡量程度。但是,要评估您的 IR 系统,您需要使用诸如精度、召回率和 F 分数等指标。

精度:在您的系统检索到的所有文档中,哪些是相关的?这可以测量 IR 系统输出中的噪声量。

回忆:在所有相关文档中,您的系统检索到了哪些文档?这可以衡量您的 IR 系统的覆盖范围?

通过基本上从集合中检索所有文档以进行任何查询,可以始终获得 100% 的召回率。但是,这种情况下的精度会非常低。

通过对 IR 系统进行手动建模并产生非常准确的结果,可以获得非常高的精度。但是,它会产生非常糟糕的召回,因为不会覆盖所有文档。

所以我们需要测量 F 分数——它是 Precision 和 Recall 之间的调和平均值。查看Stanford IR book 的第 8 章

如果您只在寻找数据集,这里有一些相关的: