带有用户反馈的稀疏 IR

数据挖掘 信息检索 排行 信息论
2022-02-09 23:06:19

我正在考虑在信息检索上下文中构建问题。

我有一系列具有不同属性的文档。在网络环境中,这些将是网页。一个属性可能是“这是前 10 位内容创建者吗”等。当我们将多标签值转换为二进制指标时,我们最终会得到如下矩阵:

   a b c d e f
A: 1 0 0 0 1 0
B: 0 1 0 0 1 0
C: 0 0 1 0 0 0
D: 0 1 0 0 0 1
E: 0 0 0 0 1 0
F: 0 0 1 0 0 1

我们可以向用户询问一系列关于他们在此数据集中的偏好的渐进式问题。例如。“你关心它来自前 10 名内容创作者吗?”

然而,这些只是偏好。仅仅因为我们知道问题的“答案”并不会立即使具有该属性的文档无效。它应该在最终排名中降低它。

手头的任务变成知道 A)要问哪些问题以最大化信息增益和 B)对结果列表进行排名。这似乎是一个现有的研究领域,但到目前为止我还没有找到任何关于它的东西。这个算法设计领域有名字吗?

1个回答

这是一个学习排序问题,特别是学习排序的特征选择。

有很多方法可以解决问题。一种常见的方法是最大化特征重要性,同时最小化相似性。换句话说,根据最有价值和最独特的特征对文档进行排名。这是最小冗余最大相关性 (mRMR) 特征选择的一种变体。

为了最大化特征重要性,首先使用所有特征对所有文档进行排名,使用评估措施评估性能,并显示具有最高重要性分数的文档。

为了最小化相似性,找到具有最少冗余的特征。冗余可以测量为每个特征对之间所有互信息值的平均值。

排名特征选择”更详细。

使用 mRMR 订购功能后,用户可以选择特定功能。然后根据用户选择的特征重新排列文档。