是否有任何一般规则可以用来推断可以从特定数据集中学习/概括什么?假设数据集取自人群样本。这些规则可以描述为样本或总人口的函数吗?
我理解以上内容可能含糊不清,所以一个案例场景:用户参与搜索任务,其中数据是他们的查询、点击的结果以及这些结果的 HTML 内容(仅限文本)。每一个都标有他们的用户和时间戳。用户可能会生成几页 - 用于简单的事实调查任务 - 或数百页 - 用于长期搜索任务,例如课堂报告。
编辑:除了对给定样本的人群进行概括外,我还对在给定时间片的情况下概括个人的整体搜索行为感兴趣。理论和论文参考是一个加号!