我正在考虑在信息检索上下文中构建问题。
我有一系列具有不同属性的文档。在网络环境中,这些将是网页。一个属性可能是“这是前 10 位内容创建者吗”等。当我们将多标签值转换为二进制指标时,我们最终会得到如下矩阵:
a b c d e f
A: 1 0 0 0 1 0
B: 0 1 0 0 1 0
C: 0 0 1 0 0 0
D: 0 1 0 0 0 1
E: 0 0 0 0 1 0
F: 0 0 1 0 0 1
我们可以向用户询问一系列关于他们在此数据集中的偏好的渐进式问题。例如。“你关心它来自前 10 名内容创作者吗?”
然而,这些只是偏好。仅仅因为我们知道问题的“答案”并不会立即使具有该属性的文档无效。它应该在最终排名中降低它。
手头的任务变成知道 A)要问哪些问题以最大化信息增益和 B)对结果列表进行排名。这似乎是一个现有的研究领域,但到目前为止我还没有找到任何关于它的东西。这个算法设计领域有名字吗?