大规模个性化 - 每用户与全局模型

数据挖掘 分类
2021-10-13 04:35:15

我目前正在从事一个可以从个性化预测中受益的项目。给定一个输入文档、一组输出文档和用户行为历史,我想预测点击了哪些输出文档。

简而言之,我想知道这种个性化问题的典型方法是什么。模型是按用户训练的,还是单个全局模型会汇总过去用户行为的统计数据来帮助做出决策?每个用户模型在用户活动一段时间后才会准确,而大多数全局模型必须采用固定长度的特征向量(这意味着我们或多或少必须将过去的事件流压缩成较少数量的汇总统计)。

1个回答

根据数据的大小和性质,这个问题的答案会有很大差异。在较高层次上,您可以将其视为多层次模型的一个特例;您可以选择使用完全池化的模型(即不区分用户的通用模型)、没有池化的模型(每个用户的单独模型)和部分池化模型(两者的混合) . 如果您有兴趣,您应该真正阅读有关此主题的 Andrew Gelman。

您也可以将其视为一个学习排序问题,它要么尝试使用单个函数生成逐点估计,要么尝试优化某些逐列表损失函数(例如,NDCG)。

与大多数机器学习问题一样,这完全取决于您拥有什么样的数据、数据的质量、数据的稀疏性以及您能够从中提取什么样的特征。如果您有理由相信每个用户的行为都会非常独特,那么您可能想要构建一个每个用户的模型,但这会很快变得笨拙——当你遇到时你会怎么做有了新用户?